Liv McMahonrepórter de tecnologia E
Lily JamaliRepórter de tecnologia norte-americano
A Amazon Web Services (AWS) disse na noite de segunda-feira que resolveu uma grande interrupção que deixou alguns dos maiores sites do mundo offline durante grande parte do dia.
Mais de 1.000 aplicativos e sites, incluindo plataformas de mídia social como Snapchat e bancos como Lloyds e Halifax, foram afetados por questões que a Amazon disse serem centrais para as operações da gigante da computação em nuvem nos EUA.
O monitor de interrupção da plataforma Downdetector disse que os relatos de usuários sobre o problema em todo o mundo aumentaram para mais de 11 milhões durante a interrupção de segunda-feira.
Mesmo depois de a Amazon ter resolvido o problema subjacente, os especialistas disseram que a interrupção mostrou os perigos de tantas empresas dependerem de um único fornecedor dominante.
“O que este episódio destaca é o quão interdependente é a nossa infraestrutura”, disse o professor Alan Woodward, da Universidade de Surrey.
“Muitos serviços online dependem de terceiros para a sua infra-estrutura física, o que significa que podem surgir problemas mesmo com o maior destes fornecedores terceiros.
“Pequenos erros, muitas vezes cometidos por humanos, podem ter impactos generalizados e significativos.”
Os problemas parecem ter começado por volta das 07h00 BST de segunda-feira, quando os usuários começaram a relatar problemas de acesso a várias plataformas.
Isso incluiu uma ampla variedade de sites e serviços diferentes, desde os principais jogos online, como Fortnite, até o aplicativo de aprendizagem de idiomas Duolingo.
No início do dia, o Downdetector disse à BBC que viu mais de quatro milhões de relatórios de usuários de 500 sites em apenas algumas horas; Isso é mais que o dobro da quantidade que ele veria durante um dia normal de semana.
Foi afirmado que este número posteriormente aumentou para mais de 11 milhões à medida que mais serviços como Reddit e Lloyds Bank tentavam se recuperar.
A Amazon disse que todos os serviços da AWS “voltaram às operações normais” por volta das 23h. ET.
Mas a empresa já teve que reduzir partes do seu sistema para resolver o problema subjacente.
De acordo com Mike Chapple, professor de tecnologia da informação da Universidade de Notre Dame, uma nova série de “falhas em cascata” pode ter surgido após a interrupção inicial.
“É como quando você sofre uma queda de energia em grande escala. As equipes começam a trabalhar para restaurá-la”, disse Chapple. “A energia pode oscilar algumas vezes”, explicou ele, mas é possível que a Amazon inicialmente “apenas tenha abordado os sintomas” e não a causa.
O que deu errado?
A Amazon ainda não explicou completamente o que causou a interrupção de segunda-feira ou fez uma declaração oficial sobre isso.
Uma atualização na página de status do serviço afirmou que o problema “parece estar relacionado à resolução de DNS do endpoint da API DynamoDB em US-East-1”.
DNS, que significa Sistema de Nomes de Domínio, é frequentemente comparado a uma lista telefônica da Internet.
Ele traduz com eficácia nomes de sites que as pessoas usam (como bbc.co.uk) em números que podem ser lidos e compreendidos por computadores.
Este processo sustenta fundamentalmente a forma como usamos a Internet, e as interrupções na Internet podem fazer com que os navegadores não consigam encontrar o conteúdo que procuram.
Matthew Prince, diretor administrativo da Cloudflare, disse à BBC que a interrupção da AWS destacou o poder dos serviços em nuvem sobre o funcionamento da Internet.
“Todo mundo tem um dia ruim, a Amazon também teve um dia ruim hoje”, disse ele.
“Há grandes coisas sobre a nuvem; ela permite escalar… mas se você passar por uma interrupção como essa, ela poderá prejudicar muitos dos serviços dos quais confiamos.”
Cori Crider, presidente do Future of Technology Institute, também disse à BBC que a situação era “um pouco como o colapso de uma ponte”.
“Uma parte significativa da economia foi destruída”, disse ele.
Ele disse que o status quo é “insustentável”, já que a maior parte da computação em nuvem é impulsionada pela Amazon, Microsoft e Google (estimada em cerca de 70%).
“Quando temos uma oferta concentrada num punhado de fornecedores monopolistas, quando algo como isto entra em colapso, uma grande percentagem da economia desaparece com isso”, disse ele.
“Deveríamos tentar comprar mais serviços locais em vez de depender de um punhado de plataformas monopolistas americanas.
“Isto representa um risco para a nossa segurança, a nossa soberania e a nossa economia, e precisamos de olhar para as divisões estruturais para tornar os nossos mercados mais resilientes a tais choques.”
Um especialista em ciência da computação diz que parte da responsabilidade recai sobre as empresas que usam a AWS.
“As empresas que usam a Amazon não tomam cuidado suficiente para incorporar sistemas de proteção em seus aplicativos”, diz Ken Birman, professor de ciência da computação na Universidade Cornell, em Nova York.
Interrupções como a de segunda-feira nem sempre ocorrem nessa escala, mas ocorrem com frequência.
Birman disse à BBC que os desenvolvedores de aplicativos devem ter cuidado ao investir no backup de aplicativos críticos que residem na nuvem.
“Sabemos como tornar estes sistemas mais robustos e como fazê-lo com segurança”, diz Birman.
A questão da responsabilidade pode muito bem acabar nos tribunais.
Mais de um ano após a paralisação massiva do CrowdStrike, a Delta Airlines ainda está brigando com a empresa para recuperar mais de US$ 500 milhões em perdas.
Mesmo depois que a CrowdStrike corrigiu o problema, a companhia aérea disse que teve que redefinir manualmente 40.000 servidores, resultando em grandes atrasos nos voos durante vários dias.
Reportagem adicional de Esyllt Carr.



