Tech

Archiwizacja Wayback Machine w tajemniczy sposób ulega awarii

Wayback Machine należąca do Internet Archive to nieocenione źródło informacji, które robi dokładnie to, co mówi nazwa organizacji non-profit: archiwizuje Internet. Za archiwizację odpowiada Archiwum Internetowe 500 milionów stron internetowych dziennie.

Jednak w ostatnich miesiącach na platformie nastąpiły niepokojące zmiany. Jak wynika z nowego raportu autorów Laboratorium NiemanaWayback Machine należąca do Internet Archive archiwizuje niektóre strony internetowe znacznie rzadziej. Jeszcze bardziej niepokojące jest to, że wiele z tych stron internetowych jest poświęconych wiadomościom.

Według raportu Neiman Lab Wayback Machine zarchiwizowała 1,2 miliona nagrań ze 100 głównych serwisów informacyjnych między 1 stycznia a 15 maja 2025 r. Jednak nagle w połowie maja to się zmieniło.

Wayback Machine odnotował zaledwie 148 628 odsłon z tych samych 100 stron głównych serwisów informacyjnych między 17 maja a 1 października 2025 r. Oznacza to oszałamiający, 87-procentowy spadek liczby zarchiwizowanych stron między pierwszymi czterema miesiącami roku a poprzednimi pięcioma miesiącami.

Na przykład strona główna CNN została zarchiwizowana w Wayback Machine 34 524 razy między 1 stycznia a 15 maja. Od tego czasu w Wayback Machine znalazły się jedynie 1903 migawki strony głównej.

Zmienna prędkość światła

ZOBACZ TAKŻE:

Archiwum internetowe właśnie stało się oficjalną Biblioteką Federalną Stanów Zjednoczonych

W lipcu Mashable poinformował, że dzięki nowej nominacji przez senatora Kalifornii Alexa Padilli Internet Archive dołączy do sieci ponad 1000 bibliotek w całym kraju, których zadaniem jest archiwizowanie dokumentów rządowych do wglądu publicznego.

Mark Graham, dyrektor Wayback Machine, powiedział Nieman Lab, że „niepowodzenie w niektórych konkretnych projektach archiwizacji w maju… spowodowało, że w przypadku niektórych witryn utworzono mniej archiwów”. Według Grahama część brakujących nagrań po prostu nie zbudowała jeszcze struktury indeksu i wkrótce zostaną dodane do archiwum Wayback Machine.

Jak zauważył Nieman Lab, pięciomiesięczne opóźnienie spowodowane problemami z indeksami nie jest zjawiskiem powszechnym. Według Grahama w Internet Archive wystąpiły opóźnienia z „różnych powodów operacyjnych”, takich jak „alokacja zasobów”. Internet Archive nie opracowało ani nie przekazało Nieman Lab dalszych informacji na ten temat.

Gazety już dawno zostały zarchiwizowane w celach historycznych. Jednak w dobie Internetu większość gazet, poza tradycyjnymi gigantami medialnymi, w ostatnim czasie w dużej mierze przestała być archiwizowana. Strony internetowe mediów informacyjnych zajęły ich miejsce jako zapis historyczny. Od 1996 roku za przechowywanie archiwum stron internetowych odpowiada Internet Archive.

Jednak w ostatnich latach ta organizacja non-profit borykała się z problemami. Jak podaje Nieman Lab, koszty Internet Archive w 2023 roku wyniosły 32,7 mln dolarów. Nie tylko przeszukiwanie Internetu, ale także przechowywanie danych wymaga dużych zasobów. W tym samym roku organizacja non-profit przyniosła zaledwie 23 miliony dolarów przychodów.

Ponadto w październiku ubiegłego roku Internet Archive padło ofiarą ataku poważne naruszenie danych co spowodowało wyłączenie witryny wraz z Wayback Machine. Całkowite odbudowanie tego miejsca zajęło tygodnie.

Enlace de origen