Anthropic ma plan powstrzymania swojej sztucznej inteligencji przed zbudowaniem broni nuklearnej. Czy to zadziała?

Na koniec W sierpniu firma Anthropic zajmująca się sztuczną inteligencją ogłosiła, że jej chatbot Claude nie pomoże nikomu w budowie broni nuklearnej. Według Anthropic nawiązała współpracę z Departamentem Energii (DOE) i Narodową Administracją Bezpieczeństwa Jądrowego (NNSA), aby dopilnować, aby Claude nie ujawnił tajemnic nuklearnych.

Produkcja broni nuklearnej jest zarówno nauką ścisłą, jak i rozwiązanym problemem. Wiele informacji na temat najbardziej zaawansowanej broni nuklearnej w Ameryce jest ściśle tajnych, ale pierwotna nauka nuklearna ma 80 lat. Korea Północna udowodniła, że oddany naród zainteresowany zdobyciem bomby może tego dokonać i nie potrzebuje pomocy chatbota.

Jak dokładnie rząd USA współpracował z firmą zajmującą się sztuczną inteligencją, aby mieć pewność, że chatbot nie zdradzi wrażliwych tajemnic nuklearnych? A także: Czy istniało jakiekolwiek niebezpieczeństwo, że chatbot pomógłby komuś zbudować broń nuklearną?

Odpowiedź na pierwsze pytanie jest taka, że korzystał z Amazona. Odpowiedź na drugie pytanie jest skomplikowana.

Amazon Web Services (AWS) oferuje klientom rządowym usługi w chmurze ściśle tajne, w których mogą przechowywać wrażliwe i poufne informacje. DOE posiadało już kilka takich serwerów, kiedy rozpoczynało współpracę z Anthropic.

„Wdrożyliśmy graniczną wówczas wersję Claude w ściśle tajnym środowisku, aby NNSA mogła systematycznie testować, czy modele sztucznej inteligencji mogą stworzyć lub zaostrzyć ryzyko nuklearne” – mówi WIRED Marina Favaro, która nadzoruje politykę bezpieczeństwa narodowego i partnerstwa w Anthropic. „Od tego czasu NNSA gromadzi kolejne modele Claude w swoim bezpiecznym środowisku chmurowym i przekazuje nam opinie”.

Proces łączenia zespołu red-team w NNSA, czyli testowanie słabości, pomógł naukowcom zajmującym się energią jądrową z Anthropic i USA opracować proaktywne rozwiązanie dla programów nuklearnych wspomaganych przez chatboty. Wspólnie „opracowali klasyfikator nuklearny, który można uznać za wyrafinowany filtr rozmów AI” – mówi Favaro. „Stworzyliśmy ją, korzystając z listy wskaźników ryzyka nuklearnego, konkretnych tematów i szczegółów technicznych opracowanej przez NNSA, które pomagają nam określić, kiedy rozmowa może skręcić na szkodliwe terytorium. Sama lista jest kontrolowana, ale nie tajna, co jest kluczowe, ponieważ oznacza, że nasz personel techniczny i inne firmy mogą ją wdrożyć”.

Favaro twierdzi, że uruchomienie klasyfikatora zajęło miesiące udoskonalania i testowania. „Uchwytuje niepokojące rozmowy bez etykietowania uzasadnionych debat na temat energii jądrowej lub izotopów medycznych” – mówi.

Enlace de origen