Chmura Azure firmy Microsoft na platformie powszechnie używane usługi 365, Xbox i Minecraft zaczęły doświadczać przestojów w środę około południa czasu wschodniego, co według Microsoftu było „niezamierzoną zmianą konfiguracji”. Incydent – będący drugą poważną awarią dostawcy usług w chmurze w ciągu niecałych dwóch tygodni – podkreśla niestabilność Internetu zbudowanego w dużej mierze na infrastrukturze obsługiwanej przez kilku gigantów technologicznych.
Problemy Microsoftu wynikały w szczególności z sieci dostarczania treści Front Door platformy Azure i pojawiły się na kilka godzin przed planowaną publikacją wyników finansowych Microsoftu. Witryna internetowa firmy, w tym strona relacji inwestorskich, nadal nie działała w środę po południu, a strona stanu platformy Azure, na której Microsoft udostępnia aktualizacje, również napotykała sporadyczne problemy.
W środowych aktualizacjach statusu Microsoft opisał, że przeszedł proces wielokrotnego wycofywania najnowszych wersji swojego środowiska, aż do momentu ustalenia „ostatniej znanej dobrej” konfiguracji. O 15:01 czasu wschodniego firma oświadczyła, że zidentyfikowała i przeforsowała tę stabilną konfigurację oraz że „klienci mogą zacząć dostrzegać pierwsze oznaki ożywienia. Obecnie przebudowujemy węzły i kierujemy ruch przez węzły sprawne”.
Rzecznik firmy Microsoft powiedział w oświadczeniu: „Pracujemy nad rozwiązaniem problemu wpływającego na usługę Azure Front Door i wpływającego na dostępność niektórych usług. Klienci powinni w dalszym ciągu sprawdzać, czy są alerty dotyczące kondycji ich usług”. Firma nie odpowiedziała natychmiast na pytania WIRED dotyczące charakteru zmiany konfiguracji, która spowodowała awarię.
Poza tym, że miała ona miejsce w dniu zarobków Microsoftu, przestój nastąpił dziewięć dni po tym, jak konkurent platformy Azure, firma Amazon Web Services, doznał poważnej awarii, która dotknęła witryny i usługi na całym świecie. Główni dostawcy usług w chmurze, często nazywani „hiperskalującymi”, standaryzują i często poprawiają podstawowe bezpieczeństwo i niezawodność swoich klientów, ale problemy i awarie mogą sprawić, że staną się pojedynczymi punktami awarii dla dużej populacji krytycznych usług cyfrowych
„Pracujemy nawet nad stroną stanu przestoju platformy Azure” – mówi Davi Ottenheimer, wieloletni szef operacji związanych z bezpieczeństwem i zgodnością oraz wiceprezes firmy Inrupt zajmującej się infrastrukturą danych. „Kolejna zmiana związana z błędną konfiguracją – obecnie bardziej niż kiedykolwiek żyjemy w epoce naruszeń integralności”.
Platforma Azure zablokowała użytkownikom możliwość wprowadzania zmian w konfiguracji w ich wystąpieniach do czasu rozwiązania problemu. Firma podała w aktualizacji statusu o 15:22. ET, że spodziewa się „całkowitej deeskalacji” sytuacji do godziny 19:20. ET.
„Organizacje mogą myśleć, że są izolowane przez wybór dostawcy usług w chmurze, ale zależności są głębsze” – mówi Munish Walther-Puri, adiunkt w IANS Research i były dyrektor ds. ryzyka cybernetycznego miasta Nowy Jork. „Kiedy kluczowi partnerzy polegają na innych hiperskalerach, narażenie wzrasta. W miarę jak sztuczna inteligencja staje się kolejną warstwą infrastruktury krytycznej, te awarie pokazują kruchość naszego cyfrowego szkieletu”.



