Prezentowane przez Elastic
Dzienniki mają stać się głównym narzędziem „dlaczego” w diagnozowaniu incydentów sieciowych
Współczesne środowiska IT mają problem z danymi: jest ich za dużo. Organizacje, które muszą zarządzać środowiskiem korporacyjnym, stają przed coraz większymi wyzwaniami w zakresie wykrywania i diagnozowania problemów w czasie rzeczywistym, optymalizacji wydajności, poprawy niezawodności oraz zapewniania bezpieczeństwa i zgodności – a wszystko to w ramach ograniczonych budżetów.
Współczesny krajobraz obserwacyjny oferuje wiele narzędzi oferujących rozwiązania. Większość z nich skupia się wokół zespołów DevOps lub inżynierów niezawodności witryny (SRE), którzy analizują dzienniki, metryki i ślady, aby odkryć wzorce i zrozumieć, co dzieje się w sieci oraz zdiagnozować przyczynę wystąpienia problemu lub incydentu. Problem polega na tym, że proces ten powoduje przeciążenie informacyjne: sam klaster Kubernetes może emitować od 30 do 50 gigabajtów rekordów dziennie, a podejrzane wzorce zachowań mogą pozostać niezauważone przez ludzkie oczy.
„Obecnie, w świecie sztucznej inteligencji, myślenie o ludziach samodzielnie przyglądających się infrastrukturze jest anachronizmem” – mówi Ken Exner, dyrektor ds. produktu w firmie Elastic. „Przykro mi to mówić, ale maszyny są lepsze od ludzi w dopasowywaniu wzorców”.
Skupienie się w całej branży na wizualizacji objawów zmusza inżynierów do ręcznego wyszukiwania odpowiedzi. Kluczowe pytanie „dlaczego” jest ukryte w dziennikach, ale ponieważ zawierają one ogromne ilości nieustrukturyzowanych danych, w branży stosuje się je w ostateczności. Zmusiło to zespoły do dokonania kosztownych kompromisów: albo spędziły niezliczone godziny na budowaniu złożonych potoków danych, porzuciły cenne dane z dzienników i ryzykowały krytyczne luki w widoczności, albo zalogowały się i zapomniały.
Elastic, firma Search AI, udostępniła niedawno nową funkcję widoczności o nazwie Strumienie, która ma stać się głównym sygnałem do dochodzeń poprzez zbieranie zaszumionych zapisów i przekształcanie ich we wzorce, kontekst i znaczenie.
Streams wykorzystuje sztuczną inteligencję do automatycznego partycjonowania i analizowania surowych rekordów w celu wyodrębnienia odpowiednich pól, co znacznie zmniejsza wysiłek wymagany przez SRE do zapewnienia użyteczności rekordów. Strumienie automatycznie wyświetlają również istotne zdarzenia, takie jak błędy krytyczne i anomalie, z dzienników kontekstowych, zapewniając SRE wczesne ostrzeżenia i jasne zrozumienie ich obciążeń, umożliwiając im szybsze badanie i rozwiązywanie problemów. Ostatecznym celem jest pokazanie kroków zaradczych.
„Na podstawie surowych, obszernych i nieuporządkowanych danych Streams automatycznie tworzy strukturę, nadaje jej użyteczną formę, automatycznie ostrzega o problemach i pomaga je rozwiązać” – mówi Exner. „Na tym polega urok Potoku”.
Zakłócony tok pracy
Strumienie zmieniają proces obserwacji, który według niektórych jest zepsuty. Zazwyczaj SRE ustawiają metryki, dzienniki i ślady. Następnie ustalają alerty i cele poziomu usług (SLO) — często zakodowane na stałe reguły, które wskazują, gdzie usługa lub proces przekroczył próg lub wykryto określony wzorzec.
Po wyzwoleniu alertu wskazuje on metrykę, która wykazuje anomalię. Stamtąd SRE przeglądają pulpit metryk, na którym mogą wizualizować problem i porównać alert z innymi metrykami lub procesorem, pamięcią i wejściami/wyjściami, a następnie zacząć szukać wzorców.
Następnie może zajść potrzeba sprawdzenia śladów i sprawdzenia zależności wcześniejszych i dalszych w aplikacji, aby znaleźć pierwotną przyczynę problemu. Kiedy już dowiedzą się, co jest przyczyną problemów, przechodzą do dzienników tej bazy danych lub usługi, aby spróbować naprawić błąd.
Niektóre firmy chcą po prostu dodać więcej narzędzi, gdy istniejące okażą się nieskuteczne. Oznacza to, że SRE przeskakują od narzędzia do narzędzia, aby być na bieżąco z monitorowaniem i rozwiązywaniem problemów w swojej infrastrukturze i aplikacjach.
„Przeskakujesz między różnymi narzędziami. Polegasz na człowieku, który interpretuje te rzeczy, wizualnie sprawdza relacje między systemami na mapie usług, wizualnie przegląda wykresy na pulpicie nawigacyjnym metryk, aby dowiedzieć się, co i gdzie jest problem” – mówi Exner. „Ale sztuczna inteligencja automatyzuje ten przepływ pracy”.
Dzięki strumieniom opartym na sztucznej inteligencji dzienniki są wykorzystywane nie tylko reaktywnie do rozwiązywania problemów, ale także proaktywnie przetwarzają potencjalne problemy i tworzą bogate w informacje alerty, które pomagają zespołom od razu przejść do rozwiązywania problemów, oferując rozwiązanie zaradcze lub nawet całkowicie rozwiązując problem, zanim automatycznie powiadomią zespół o jego rozwiązaniu.
„Wierzę, że dzienniki, czyli najbogatszy zestaw informacji i oryginalny typ sygnału, zaczną sterować dużą częścią automatyzacji, którą obecnie zwykle wykonują inżynierowie ds. niezawodności usług, i to bardzo ręcznie” – dodaje. „Człowiek nie powinien brać udziału w tym procesie, podczas którego sam dokopuje się, próbując dowiedzieć się, co się dzieje, gdzie i na czym polega problem, a następnie, gdy znajdzie pierwotną przyczynę, spróbuje znaleźć sposób na jej naprawienie”.
Przyszłość obserwacji
Modele wielkojęzyczne (LLM) mogą odegrać kluczową rolę w przyszłości widoczności. LLM przodują w rozpoznawaniu wzorców w ogromnych ilościach powtarzalnych danych, co jest bardzo podobne do danych logistycznych i telemetrycznych w złożonych, dynamicznych systemach. A dzisiejsze LLM można przeszkolić w zakresie określonych procesów IT. Dzięki narzędziom do automatyzacji LLM ma informacje i narzędzia potrzebne do rozwiązywania błędów baz danych lub problemów ze stosem Java i nie tylko. Kluczowe będzie umieszczenie ich na platformach zapewniających kontekst i znaczenie.
Exner twierdzi, że automatyczne korygowanie zajmie trochę czasu, ale zautomatyzowane elementy Runbook i podręczniki generowane przez LLM staną się standardową praktyką w ciągu najbliższych kilku lat. Innymi słowy, etapy rehabilitacji będą prowadzone przez LLM. LLM zaoferuje poprawki, a człowiek je sprawdzi i wdroży, zamiast wzywać eksperta.
Rozwiązanie problemu luki w umiejętnościach
Postawienie wszystkiego na sztuczną inteligencję w celu zapewnienia widoczności pomogłoby rozwiązać problem ogromnego niedoboru talentów potrzebnych do zarządzania infrastrukturą IT. Zatrudnianie jest powolne, ponieważ organizacje potrzebują zespołów z dużym doświadczeniem i rozumiejących potencjalne problemy oraz sposoby ich szybkiego rozwiązywania. Exner twierdzi, że doświadczenie to może pochodzić z doświadczenia LLM opartego na kontekście.
„Możemy pomóc rozwiązać problem niedoboru wykwalifikowanej siły roboczej, zwiększając liczbę osób posiadających wykształcenie LLM, dzięki któremu wszyscy staną się natychmiastowymi ekspertami” – wyjaśnia. „Myślę, że dzięki temu znacznie łatwiej będzie nam pozyskać początkujących praktyków i uczynić z nich ekspertów w dziedzinie bezpieczeństwa i widoczności, a także pozwoli początkującym praktykom zachowywać się jak eksperci”.
Strumienie w Elastic Observability są już dostępne. Zacznij od czytanie więcej na Streamach.
Artykuły sponsorowane to treści tworzone przez firmę, która płaci za publikację lub ma relacje biznesowe z VentureBeat i zawsze są wyraźnie oznaczone. Aby uzyskać więcej informacji, prosimy o kontakt sprzedaż@venturebeat.com.



