Tech

Anthropic ma plan powstrzymania swojej sztucznej inteligencji przed zbudowaniem broni nuklearnej. Czy to zadziała?

Na koniec W sierpniu firma Anthropic zajmująca się sztuczną inteligencją ogłosiła, że ​​jej chatbot Claude nie pomoże nikomu w budowie broni nuklearnej. Według Anthropic nawiązała współpracę z Departamentem Energii (DOE) i Narodową Administracją Bezpieczeństwa Jądrowego (NNSA), aby dopilnować, aby Claude nie ujawnił tajemnic nuklearnych.

Produkcja broni nuklearnej jest zarówno nauką ścisłą, jak i rozwiązanym problemem. Wiele informacji na temat najbardziej zaawansowanej broni nuklearnej w Ameryce jest ściśle tajnych, ale pierwotna nauka nuklearna ma 80 lat. Korea Północna udowodniła, że ​​oddany naród zainteresowany zdobyciem bomby może tego dokonać i nie potrzebuje pomocy chatbota.

Jak dokładnie rząd USA współpracował z firmą zajmującą się sztuczną inteligencją, aby mieć pewność, że chatbot nie zdradzi wrażliwych tajemnic nuklearnych? A także: Czy istniało jakiekolwiek niebezpieczeństwo, że chatbot pomógłby komuś zbudować broń nuklearną?

Odpowiedź na pierwsze pytanie jest taka, że ​​korzystał z Amazona. Odpowiedź na drugie pytanie jest skomplikowana.

Amazon Web Services (AWS) oferuje klientom rządowym usługi w chmurze ściśle tajne, w których mogą przechowywać wrażliwe i poufne informacje. DOE posiadało już kilka takich serwerów, kiedy rozpoczynało współpracę z Anthropic.

„Wdrożyliśmy graniczną wówczas wersję Claude w ściśle tajnym środowisku, aby NNSA mogła systematycznie testować, czy modele sztucznej inteligencji mogą stworzyć lub zaostrzyć ryzyko nuklearne” – mówi WIRED Marina Favaro, która nadzoruje politykę bezpieczeństwa narodowego i partnerstwa w Anthropic. „Od tego czasu NNSA gromadzi kolejne modele Claude w swoim bezpiecznym środowisku chmurowym i przekazuje nam opinie”.

Proces łączenia zespołu red-team w NNSA, czyli testowanie słabości, pomógł naukowcom zajmującym się energią jądrową z Anthropic i USA opracować proaktywne rozwiązanie dla programów nuklearnych wspomaganych przez chatboty. Wspólnie „opracowali klasyfikator nuklearny, który można uznać za wyrafinowany filtr rozmów AI” – mówi Favaro. „Stworzyliśmy ją, korzystając z listy wskaźników ryzyka nuklearnego, konkretnych tematów i szczegółów technicznych opracowanej przez NNSA, które pomagają nam określić, kiedy rozmowa może skręcić na szkodliwe terytorium. Sama lista jest kontrolowana, ale nie tajna, co jest kluczowe, ponieważ oznacza, że ​​nasz personel techniczny i inne firmy mogą ją wdrożyć”.

Favaro twierdzi, że uruchomienie klasyfikatora zajęło miesiące udoskonalania i testowania. „Uchwytuje niepokojące rozmowy bez etykietowania uzasadnionych debat na temat energii jądrowej lub izotopów medycznych” – mówi.

Enlace de origen