Co wielka awaria AWS ujawnia na temat Internetu

Ogromna chmura Awaria w kluczowym regionie Amazon Web Services US-EAST-1, jego węźle w północnej Wirginii w pobliżu Kapitolu, spowodowała w poniedziałek rano powszechne zakłócenia w witrynach internetowych i platformach na całym świecie. Główna platforma e-commerce Amazona i inne usługi, w tym dzwonki do drzwi Ring i inteligentny asystent Alexa, odnotowały awarie przez cały poranek, podobnie jak platforma komunikacyjna WhatsApp WhatsApp, ChatGPT OpenAI, platforma płatnicza Venmo PayPal, wiele usług internetowych Epic Games, wiele witryn rządowych Wielkiej Brytanii i wiele innych.

Awarie wynikały z interfejsów programistycznych aplikacji bazodanowych DynamoDB firmy Amazon w US-EAST-1, a firma AWS podała w aktualizacji statusu, że problem był konkretnie związany z problemami z rozpoznawaniem DNS. „System nazw domen” to podstawowa usługa internetowa, która zasadniczo działa jak automatyczne przeszukiwanie książki telefonicznej w celu tłumaczenia adresów URL, takich jak www.wired.com, na numeryczne adresy IP serwerów, dzięki czemu przeglądarki internetowe wyświetlają użytkownikom odpowiednią treść. Problemy z rozpoznawaniem DNS pojawiają się wtedy, gdy serwery DNS nie łączą prawidłowo kropek i analogicznie do książki telefonicznej podają błędne numery dla konkretnego nazwiska lub odwrotnie.

„Na podstawie naszego dochodzenia wynika, że problem wydaje się być związany z rozpoznawaniem DNS punktu końcowego API DynamoDB w US-EAST-1” – napisano w poniedziałkowej aktualizacji statusu firmy AWS. Niedługo potem firma dodała: „Jeśli nadal masz problemy z rozpoznaniem punktów końcowych usługi DynamoDB w US-EAST-1, zalecamy opróżnienie pamięci podręcznej DNS”.

Rzecznik AWS nie odpowiedział od razu na pytanie o szczegóły charakteru awarii. Problemy z rozpoznawaniem DNS mogą mieć podłoże złośliwe – nazywane przejmowaniem DNS – ale nic nie wskazuje na to, że poniedziałkowe awarie AWS miały charakter złośliwy.

„Kiedy system nie mógł poprawnie rozróżnić, z którym serwerem się połączyć, kaskadowe awarie zakłócały działanie usług w Internecie” – mówi Davi Ottenheimer, wieloletni szef operacji bezpieczeństwa i zgodności oraz wiceprezes ds. infrastruktury danych w firmie Inrupt. „Dzisiejsza awaria AWS to klasyczny problem z dostępnością i musimy zacząć postrzegać go bardziej jako awarię integralności danych”.

Problemy zaczęły się około 3:00 czasu wschodniego. O 5:22 AWS wdrożyło „wstępne środki łagodzące”, które zaczęły przynosić skutek. O godzinie 6:35 Amazon oświadczył, że w pełni rozwiązał podstawowe problemy techniczne, ale „niektóre usługi będą miały zaległości do rozwiązania, których pełne przetworzenie może zająć więcej czasu”.

AWS doświadczył innych awarii na dużą skalę, w tym poważnego incydentu w 2023 r. Poleganie na centralnych usługach chmurowych takich gigantów jak AWS, Microsoft Azure i Google Cloud Services pod wieloma względami poprawiło cyberbezpieczeństwo i stabilność na całym świecie, tworząc podstawę barier i najlepszych praktyk dla wszystkich użytkowników. Jednak ta standaryzacja wiąże się z poważnymi kompromisami, ponieważ platformy stają się pojedynczym punktem awarii dla dużych grup usług krytycznych.

„Porażki coraz częściej kojarzą się z uczciwością” – mówi Ottenheimer. „Uszkodzone dane, nieudana weryfikacja lub, w tym przypadku, nieprawidłowe rozpoznawanie nazw, które zatruwało każdą zależność na dalszym etapie łańcucha dostaw. Dopóki lepiej nie zrozumiemy i nie będziemy chronić integralności, nasze całkowite skupienie się na czasie pracy będzie iluzją”.

Enlace de origen