Naukowcy z Google Cloud i UCLA zaproponowali nową platformę uczenia się przez wzmacnianie, która znacznie poprawia zdolność modeli językowych do uczenia się bardzo trudnych, wieloetapowych zadań wnioskowania. Uczenie się pod nadzorem ze wzmocnieniem (SRL) postrzega rozwiązywanie problemów jako sekwencję logicznych „działań”, dostarczając bogatych sygnałów edukacyjnych podczas procesu szkoleniowego.
Takie podejście pozwala mniejszym modelom uczyć się złożonych problemów, które wcześniej były niedostępne dla innych powszechnych technik szkoleniowych. Eksperymenty pokazują, że SRL nie tylko przoduje w testach porównawczych rozumowania matematycznego, ale także skutecznie uogólnia zadania inżynierii oprogramowania opartego na agentach.
SRL to wszechstronna platforma szkoleniowa, która może podnieść mniejsze i tańsze modele na wyższe możliwości myślenia.
Ograniczenia obecnego szkolenia w zakresie rozumowania LLM
Niedawne postępy w szkoleniu wielkoskalowych modeli językowych (LLM) na potrzeby wnioskowania są w dużej mierze napędzane przez uczenie się przez wzmacnianie za pomocą weryfikowalnych nagród (RLVR), czyli metodę, w której model jest nagradzany na podstawie dokładności ostatecznej odpowiedzi. Poprzez ciągłe próby rozwiązywania problemów i otrzymywanie informacji zwrotnych na temat końcowego wyniku, model stopniowo uczy się skutecznych strategii rozwiązywania problemów.
Jednak powodzenie tego podejścia opartego na wynikach zależy od zdolności modelu do znalezienia prawidłowego rozwiązania w ograniczonej liczbie prób lub „serii”. Ponieważ każda reprezentacja jest kosztowna obliczeniowo, modeli nie można wypróbowywać w nieskończoność. Metoda ta trafia w sedno, gdy problemy są tak trudne, że model rzadko, jeśli w ogóle, znajduje właściwą odpowiedź w ramach swojego budżetu.
Stwarza to krytyczne wąskie gardło w procesie uczenia się. W wielu wieloetapowych problemach z wnioskowaniem model może poprawnie rozwiązać kilka kroków, ale może zostać wykolejony przez pojedynczy błąd, co prowadzi do nieprawidłowej odpowiedzi. Dzięki RLVR cały ten wysiłek zostaje nagrodzony ujemnie, a model nie uczy się niczego ze swojej częściowo poprawnej pracy. Jest to podejście typu „wszystko albo nic”, które nie zapewnia precyzyjnych informacji zwrotnych i zapewnia niewiele nagród.
Alternatywną metodą jest nadzorowane dostrajanie (SFT), w którym model uczy się na przykładach zawierających pełny proces myślowy przedstawiony przez ekspertów. Chociaż SFT może zaszczepić zdolności rozumowania, często prowadzi do nadmiernego dopasowania (model po prostu uczy się naśladować trajektorie w danych szkoleniowych, zamiast uczyć się uogólniania problemów wykraczających poza przykłady, które widział). Problem ten pogłębia fakt, że wysokiej jakości dane szkoleniowe generowane przez człowieka są rzadkie i kosztowne w produkcji.
Jak zauważono w artykule, ograniczenia te pozostawiają „krytyczną lukę w szkoleniu małych modeli o otwartym kodzie źródłowym w celu skutecznego uczenia się trudnych problemów”.
Jak działa nadzorowane uczenie się ze wzmocnieniem
SRL wprowadza ramy, które przekształcają rozwiązywanie problemów w „sekwencyjny proces decyzyjny”, zachowując równowagę pomiędzy RL opartym wyłącznie na wynikach a uczeniem się wyłącznie przez naśladownictwo. Zamiast optymalizować jedynie pod kątem ostatecznej odpowiedzi lub zmuszać model do naśladowania całego procesu myślowego eksperta, SRL uczy model odtwarzania szeregu kluczowych działań, które stanowią podstawę rozumowania eksperta. Dzięki temu model może nauczyć się podejmowania działań eksperckich, jednocześnie rozwijając swój własny, wewnętrzny styl myślenia.
W SRL profesjonalne demonstracje dzielą się na serię pośrednich, konkretnych działań, z których każde stanowi znaczący krok. W przypadku problemu matematycznego działanie może być manipulacją algebraiczną. W przypadku agenta inżynierii oprogramowania może to być polecenie wykonywane w repozytorium kodu. Aby wygenerować dane szkoleniowe, SRL wykorzystuje potężny model nauczyciela do tworzenia trajektorii rozwiązań, które są następnie wykorzystywane do uczenia mniejszego modelu.
Według I-Hung Hsu, badacza Google i współautora artykułu, to pośrednie podejście jest kluczem do jego skuteczności w rzeczywistych scenariuszach. „SRL znajduje się pośrodku: obejmuje ustrukturyzowaną elastyczność rozwiązywania problemów w świecie rzeczywistym, w przypadku którego istnieje wiele prawidłowych strategii, ale także jasne wyobrażenia na temat tego, jak „dobre myślenie” wygląda na każdym kroku” – Hsu powiedział VentureBeat. „To sprawia, że SRL dobrze nadaje się do takich dziedzin, jak automatyzacja analizy danych lub ewentualnie optymalizacja łańcucha dostaw – zadania, które nagradzają rozsądne myślenie pośrednie, a nie tylko ostateczne odpowiedzi”.
Podczas treningu model najpierw tworzy „monolog wewnętrzny” (jego wewnętrzny proces rozumowania, zawarty w
SRL w akcji
Eksperymenty naukowców pokazują, że SRL znacznie przewyższa mocne wartości bazowe zarówno w wymagających testach matematycznych, jak i w testach inżynierii oprogramowania opartej na agentach. Zauważyli również, że SRL zachęca w modelach do bardziej elastycznych i wyrafinowanych wzorców myślenia, takich jak powiązane planowanie i samokontrola, które poprawiają jakość rozwiązań bez prostego przedłużania wyników.
Dla liderów biznesu wzrost wydajności ma wartość tylko wtedy, gdy nie wiąże się z niewiarygodnymi kosztami. Hsu wyjaśnia, że modele wytrenowane w SRL są bardziej wydajne w myśleniu. „Korzyści wynikają z lepszej jakości i struktury rozumowania, a nie z gadatliwości” – stwierdził. „Pod względem wydajności modele wytrenowane za pomocą SRL są w przybliżeniu równe modelowi bazowemu pod względem użycia tokenów… chociaż SRL nie został zaprojektowany w celu zmniejszenia kosztów wnioskowania, osiąga lepszą wydajność wnioskowania bez jej zwiększania”.
Na testy z matematyki zespół przebrał się Instrukcja Qwen2.5-7B na zbiorze danych składającym się z 1000 trudnych pytań matematycznych. Porównali jego wydajność z modelami wytrenowanymi za pomocą SFT i RLVR (przy użyciu algorytmu GRPO powszechnego w modelach takich jak DeepSeek-R1) na czterech matematycznych benchmarkach na poziomie konkursowym. Model wytrenowany za pomocą SRL osiągnął znaczny wzrost wydajności średnio o 3,0% w porównaniu z innymi metodami.
Zespół rozszerzył SRL na inżynierię oprogramowania agentowego, dziedzinę o kluczowym znaczeniu dla automatyzacji przedsiębiorstw. Wyszkolili model specjalizujący się w kodowaniu, Instrukcja Qwen2.5-Coder-7Bna 5000 eksperckich trajektoriach agentów wchodzących w interakcję ze środowiskiem kodującym. Model wytrenowany za pomocą SRL porównano z oryginalnym modelem bazowym i SWE-Gym-7B, mocnym modelem bazowym dopracowanym przez SFT. SRL osiągnęła wskaźnik rozwiązywania problemów na poziomie 14,8%, co stanowi względną poprawę o 74% w porównaniu z modelem opartym na SFT. Pokazuje to zdolność SRL do szkolenia bardziej kompetentnych agentów AI do wykonywania złożonych zadań programistycznych w świecie rzeczywistym.
Nowy standard dla sztucznej inteligencji o wysoką stawkę?
Najskuteczniejsze wyniki pracy uzyskano dzięki połączeniu metod: po pierwsze, wykorzystania SRL do nauczania podstawowego myślenia, a następnie wykorzystania RLVR do udoskonalenia tej umiejętności. W swoich eksperymentach, gdy badacze stosowali SRL przed szkoleniem i stosowali RLVR po szkoleniu, zaobserwowali średni wzrost o 3,7%, co świadczy o skutecznej strategii uczenia się opartej na programie nauczania.
Nasuwa się pytanie, czy mogłoby to stać się nowym planem budowy wyspecjalizowanej sztucznej inteligencji.
„Postrzegamy SRL jako mocny fundament” – powiedział Hsu. „W pewnym sensie SRL zapewnia program nauczania — uczy modeli myślenia i działania krok po kroku — zanim udoskonalimy te zachowania za pomocą uczenia się przez wzmacnianie opartego na wynikach. To podejście skupiające się na SRL nie tylko stabilizuje późniejszy etap RL, ale także sprawia, że myślenie jest bardziej zrozumiałe i możliwe do uogólnienia, co ma kluczowe znaczenie w zastosowaniach o wysokiej stawce”.
Patrząc w przyszłość, Hsu przyznaje, że skalowanie tego rurociągu nadal wiąże się z wyzwaniami, zwłaszcza wysokimi kosztami i złożonością kompleksowego RLVR do zadań agentów. Jest jednak optymistą, jeśli chodzi o przyszłość. „Chociaż wysokiej jakości ścieżki zawodowe pozostają ważne” – podsumował – „uważamy, że kolejny duży krok nastąpi poprzez automatyzację ich generowania i filtrowania – poprzez wykorzystanie solidnych modeli nauczycieli, a nawet samodoskonalących się modeli uczniów do pozyskiwania nowych danych”.



