Tech

Platforma SPICE firmy Meta umożliwia systemom AI nauczenie się rozumienia samych siebie

Naukowcy z Meta FAIR i Narodowego Uniwersytetu w Singapurze opracowali nową strukturę uczenia się przez wzmacnianie na potrzeby samodoskonalenia się systemów sztucznej inteligencji.

Platforma ta, zwana Self-Play In Corpus Environments (SPICE), stawia przeciwko sobie dwóch agentów AI, którzy tworzą własne wyzwania i stopniowo ulepszają się bez nadzoru człowieka.

Chociaż obecnie jest to weryfikacja koncepcji, ten mechanizm samodzielnej zabawy może stanowić podstawę dla przyszłych systemów sztucznej inteligencji, które będą mogły dynamicznie dostosowywać się do swoich środowisk, czyniąc je bardziej odpornymi na nieprzewidywalność zastosowań w świecie rzeczywistym.

Wyzwanie samodoskonalenia się sztucznej inteligencji

Celem samodoskonalenia się sztucznej inteligencji jest tworzenie systemów, które mogą doskonalić swoje umiejętności poprzez interakcję z otoczeniem.

Powszechnym podejściem jest uczenie się przez wzmacnianie za pomocą weryfikowalnych nagród (RLVR), w ramach którego modele są nagradzane za udzielanie poprawnych odpowiedzi na problemy. Jest to często ograniczone przez poleganie na zestawach problemów zdefiniowanych przez człowieka i inżynierii nagród specyficznej dla domeny, co utrudnia skalowanie.

Gra sama w sobie, podczas której model doskonali się poprzez konkurowanie ze sobą, to kolejny obiecujący paradygmat. Jednak istniejące metody samodzielnej zabawy w modelach językowych są często ograniczone przez dwa krytyczne czynniki.

  1. Frzeczywiste błędy w wygenerowanych pytaniach i odpowiedziach kumulują się, prowadząc do halucynacyjnego sprzężenia zwrotnego.

  2. Kiedy generator problemu i osoba rozwiązująca problemy mają symetrię informacji (tj. dzielą tę samą bazę wiedzy), nie generują naprawdę nowych wyzwań i popadają w powtarzalne wzorce.

Jak stwierdzają naukowcy w swoim artykule: „Te systematyczne niepowodzenia empiryczne wskazują, że samodoskonalenie wymaga interakcji z zewnętrznym źródłem, które zapewnia różnorodne, weryfikowalne informacje zwrotne, a nie czystej introspekcji w zamkniętej pętli”.

Jak działa SPICE

SPICE to platforma do samodzielnej zabawy, w której jeden model pełni dwie różne role.

  • „Challenger” konstruuje program nauczania złożony z trudnych problemów na podstawie dużego zbioru dokumentów.

  • „Reasoner” następnie próbuje rozwiązać te problemy bez dostępu do oryginalnych dokumentów.

Taka konfiguracja łamie symetrię informacji, która ogranicza inne metody samodzielnej zabawy, ponieważ Rozumujący nie ma dostępu do dokumentów i wiedzy, które Wyzywający wykorzystuje do stworzenia problemu.

Ugruntowanie zadań w dużym i zróżnicowanym zbiorze dokumentów zapobiega halucynacjom poprzez zakotwiczenie pytań i odpowiedzi w treściach ze świata rzeczywistego. Jest to ważne, ponieważ aby systemy sztucznej inteligencji mogły się niezawodnie doskonalić, potrzebują zewnętrznych źródeł uziemienia. Dlatego agenci LLM powinni uczyć się na podstawie interakcji z ludźmi i światem rzeczywistym, a nie tylko na podstawie własnych wyników, aby uniknąć skomplikowanych błędów.

Kontradyktoryjna dynamika pomiędzy obiema rolami tworzy automatyczny program nauczania.

Challenger jest przyznawany za tworzenie problemów zróżnicowanych i znajdujących się na granicy możliwości Rozumnika (niezbyt łatwych i nie niemożliwych).

Rozsądek jest nagradzany za poprawną odpowiedź. Ta symbiotyczna interakcja zmusza oba podmioty do ciągłego odkrywania i pokonywania nowych wyzwań.

Ponieważ system wykorzystuje surowe dokumenty zamiast predefiniowanych par pytanie-odpowiedź, może generować różne formaty zadań, takie jak pytania wielokrotnego wyboru i pytania w dowolnej formie.

Ta elastyczność pozwala na zastosowanie SPICE w dowolnej dziedzinie, eliminując wąskie gardło, które ograniczało poprzednie metody do wąskich dziedzin, takich jak matematyka i kod. Zmniejsza także zależność od kosztownych, wybieranych przez ludzi zbiorów danych dla specjalistycznych dziedzin, takich jak analizy prawne czy medyczne.

SPICE w akcji

Naukowcy ocenili SPICE na kilku modelach podstawowych, w tym Qwen3-4B-Base i OctoThinker-3B-Hybrid-Base.

Porównali jego wydajność z wartościami bazowymi, takimi jak niewytrenowany model bazowy, model Reasoner trenowany przy użyciu stałego „Strong Challengera” (Qwen3-32B-Instruct) oraz całkowicie samodzielne metody, takie jak R-Zero i Zero Absolute. Ocena obejmowała szeroki zakres kryteriów matematycznych i ogólnych.

We wszystkich modelach badanie SPICE konsekwentnie osiągało lepsze wyniki niż wartości bazowe, zapewniając znaczną poprawę w zakresie zadań związanych z wnioskowaniem matematycznym i ogólnym.

Wyniki pokazują, że umiejętności rozumowania rozwinięte w wyniku samodzielnej zabawy opartej na korpusie są szeroko stosowane w różnych modelach dzięki zróżnicowanemu zewnętrznemu korpusowi wiedzy, z którego korzystali.

Kluczowym odkryciem jest to, że dynamika kontradyktoryjności tworzy skuteczny automatyczny program nauczania. W miarę postępów szkolenia Challenger uczy się stwarzać coraz trudniejsze problemy.

W jednym eksperymencie wskaźnik zdawania przez Reasonera ustalonego zestawu problemów wzrósł z czasem z 55% do 85%, co świadczy o jego ulepszonych możliwościach.

Tymczasem późniejsze wersje Challengera były w stanie generować pytania, które zmniejszyły wskaźnik zdawalności Reasonera we wczesnej fazie z 55% do 35%, potwierdzając, że obie role pomyślnie rozwijają się razem.

Naukowcy doszli do wniosku, że takie podejście reprezentuje zmianę paradygmatu w samodoskonalących się metodach rozumowania z „samodzielnej zabawy w zamkniętej pętli, która często ulega stagnacji z powodu halucynacji, do otwartego doskonalenia poprzez interakcję z ogromną, weryfikowalną wiedzą osadzoną w korpusach dokumentów internetowych”.

Obecnie korpus używany w SPICE reprezentuje ludzkie doświadczenie uchwycone w tekście. Ostatecznym celem jest to, aby samodoskonalące się systemy generowały pytania w oparciu o interakcje z rzeczywistością, w tym ze światem fizycznym, Internetem i interakcjami międzyludzkimi za pośrednictwem wielu modalności, takich jak wideo, audio i dane z czujników.

Enlace de origen