Badacze z Milo zaproponowali nową technikę, która sprawia, że wielkoskalowe modele językowe (LLM) są znacznie skuteczniejsze w przeprowadzaniu złożonych wniosków. Zwany Markow myślipodejście pozwala LLM na myślenie długoterminowe bez ponoszenia zaporowych kosztów obliczeniowych, które obecnie ograniczają takie zadania.
Implementacja zespołu, środowisko zwane Delethink, dzieli łańcuch myślowy na fragmenty o stałym rozmiarze, eliminując problem skalowania, który nęka bardzo długie odpowiedzi LLM. Wstępne szacunki pokazują, że w przypadku modelu o parametrach 1,5B metoda ta może obniżyć koszty szkolenia o ponad dwie trzecie w porównaniu z podejściami standardowymi.
Kwadratowe przekleństwo rozumowania o długim łańcuchu
Aby LLM mógł rozwiązać złożony problem, często trzeba wygenerować długą serię pośrednich tokenów „myślenia”, często nazywanych łańcuchem myślowym (CoT). W ostatnich latach naukowcy odkryli, że stosowanie nauka ze wzmocnieniem (RL) do trenowania modeli w celu tworzenia dłuższych CoT (czasami nazywanych LongCoT) znacznie poprawiło ich zdolności wnioskowania.
Jednak standardowa metoda ma krytyczną wadę: „stan” sztucznej inteligencji (zapytanie plus wszystkie tokeny wnioskowania, które wygenerowała do tej pory w trakcie przetwarzania) rośnie z każdym nowym tokenem wnioskowania. Dla nowoczesnych modele transformatorówoznacza to, że koszt obliczeń eksploduje kwadratowo w miarę wydłużania się łańcucha rozumowania, co sprawia, że uczenie modeli do bardzo złożonych zadań staje się zbyt drogie.
Większość obecnych prób zarządzania tymi kosztami skupia się na ograniczeniu zakresu myślenia modelu, pośrednio faworyzując krótsze rozwiązania lub wcześniejsze zakończenie procesu. Chociaż metody te przynoszą pewną ulgę, badacze Milo nadal pracują w ramach LongCoT i dlatego są zasadniczo ograniczeni jego kwadratową naturą.
Zamiast próbować kontrolować wzrost obliczeń, Mila stworzyła środowisko RL, które całkowicie unika problemu kwadratowego. Jak wyjaśnił współautor Amirhossein Kazemnejad, celem jest umożliwienie takich możliwości, jak wnioskowanie wielotygodniowe i odkrycia naukowe. „Ten system (oraz RL wymagany do umożliwienia takich możliwości) nie jest obsługiwany przez obecny paradygmat LongCoT ze względu na kwadratowy koszt obliczeniowy” – powiedział.
Myślenie fragmentaryczne z Delethink
Rozwiązaniem badaczy jest paradygmat, który nazywają „myślicielem Markowa”, w którym model rezonuje, zachowując jednocześnie stały rozmiar rezonującego okna kontekstowego. Podstawową ideą jest zmiana ustawień RL, aby oddzielić „jak długo model myśli” od „ile kontekstu musi przetworzyć”. Jeśli zostanie wykonany prawidłowo, myśliciel Markowa zamienia problem wzrostu kwadratowego w obliczenia liniowe i ustalone wymagania dotyczące pamięci dla wnioskowania LLM.
Naukowcy wdrożyli ten paradygmat w praktyce za pomocą narzędzia Delethink, które zmusza model do myślenia w oparciu o serię fragmentów o stałym rozmiarze, np. 8000 tokenów na raz. W obrębie każdej części model myśli normalnie, korzystając z klasycznego mechanizmu uwagi. Kiedy jednak osiągnie limit fragmentu, środowisko resetuje kontekst, tworząc nowe zapytanie zawierające oryginalne zapytanie oraz krótkie „przeniesienie” z poprzedniego fragmentu. Na przykład transmisją może być kilka ostatnich tokenów poprzedniej części CoT lub podsumowanie najważniejszych wyników.
Ta zmiana kolejności problemu zmusza model do nauczenia się, jak osadzić podsumowanie swojego postępu, czyli „tekstowy stan Markowa”, w tej transmisji, aby móc kontynuować swoje rozumowanie w następnej części. Rozwiązuje to powszechną obawę, czy model może zapamiętać ważne szczegóły z wcześniejszych kroków.
Według Kazemnejada model uczy, o czym należy pamiętać. „Dzięki szkoleniu model jest zmuszony nauczyć się przekazywać stan krytyczny dla zadania” – wyjaśnił. Dodano kluczowe wyjaśnienie dotyczące praktycznego zastosowania: Oryginalne zapytanie wejściowe nie zostało zmodyfikowane, łącznie z dodanymi do niego dokumentami lub danymi kontekstowymi. „Nasze podejście koncentruje się na etapie rozumowania i nie zmienia sposobu dochodzenia” – powiedział.
Delethink w akcji
Aby przetestować swoje podejście, badacze przeszkolili R1-Distill-1.5B z firmą Delethink na zestawie danych dotyczących problemów matematycznych na poziomie zawodów, a następnie ocenili go w oparciu o kilka punktów odniesienia. Model jest szkolony w zakresie wnioskowania do 24 000 tokenów, ale ze stałymi fragmentami po 8 000 tokenów.
Naukowcy porównali to z modelami wyszkolonymi przy użyciu standardowej metody LongCoT-RL. Ich odkrycia pokazują, że model wyszkolony za pomocą Delethink może zrozumieć do 24 000 tokenów i w testach matematycznych dorównuje lub przewyższa model LongCoT wytrenowany przy tym samym budżecie wynoszącym 24 000 tokenów. W innych zadaniach, takich jak kodowanie i pytania na poziomie doktoranckim, Delethink również spisał się na tym samym poziomie lub nieco lepiej niż jego odpowiednik z LongCoT. „Ogólnie rzecz biorąc, wyniki te pokazują, że Delethink wykorzystuje swoje tokeny myślenia równie efektywnie jak LongCoT-RL, przy zmniejszonej liczbie obliczeń” – piszą naukowcy.
Korzyści stają się jeszcze bardziej widoczne, gdy zostaną przeskalowane poza budżet szkoleniowy. Podczas gdy modele trenowane za pomocą LongCoT szybko osiągnęły swoje limity treningowe, model trenowany za pomocą Delethink nadal poprawiał swoje wyniki. Na przykład niektóre problemy matematyczne zostały rozwiązane dopiero po oszacowaniu przez model do 140 000 tokenów, czyli znacznie przekraczającym budżet szkoleniowy wynoszący 24 000 tokenów. Ta zaleta obliczeń liniowych jest istotna w zastosowaniach biznesowych. Naukowcy szacują, że wyszkolenie modelu przy średniej długości myślenia wynoszącej 96 000 tokenów wymagałoby 27 miesięcy H100-GPU w przypadku LongCoT w porównaniu z zaledwie 7 miesiącami w przypadku Delethink.
Wydajność ta rozciąga się bezpośrednio na wnioskowanie, które jest głównym wydatkiem operacyjnym większości firm. „Modele wyszkolone w myśleniu Markowa wykorzystują ten sam styl wnioskowania (śledzenie delethink) w czasie testów, co zapewnia te same korzyści w postaci obliczeń liniowych i stałej pamięci po treningu” – powiedział Kazemnejad. Podał praktyczny przykład: agent sztucznej inteligencji mógłby „debugować dużą bazę kodu i długo myśleć… co oczywiście znacznie zmniejsza koszty w porównaniu z konwencjonalnym podejściem LongCoT”.
Co ciekawe, naukowcy odkryli, że gotowe modele rozumowania, nawet bez specjalnego przeszkolenia, już wykazują pewną zdolność myślenia w sposób markowski. Odkrycie to ma bezpośrednie implikacje praktyczne dla programistów. „W praktyce oznacza to, że – bez Delethink-RL – modele te mogą już obsługiwać zakres śledzenia Delethink i być konkurencyjnymi wobec LongCoT w naszych zadaniach porównawczych” – powiedział Kazemnejad.
Ich eksperymenty z większymi modelami, takimi jak GPT-OSS 120B wykazał solidną wydajność Delethink w szeregu złożonych zadań. Ta ukryta zdolność stanowi potężny punkt wyjścia do treningu RL, pomagając wyjaśnić, dlaczego metoda ta jest tak skuteczna. „W sumie wyniki te sugerują, że Delethink jest zgodny z najnowocześniejszymi modelami i zapewnia zgodność z nimi” – podsumowują naukowcy.
Sukces Myślenia Markowiańskiego pokazuje, że „modele myślenia nowej generacji będą mogły myśleć o milionach tokenów” – zauważają naukowcy. Otwiera to drzwi do zasadniczo nowych możliwości sztucznej inteligencji, które wykraczają poza obecne ograniczenia.
„Rozumowanie Markowa… toruje drogę modelom, które potrafią «myśleć» przez bardzo długi horyzont czasowy, co uważamy za niezbędny krok w kierunku ostatecznego odkrycia naukowego” – powiedział Kazemnejad. „Nasze podejście eliminuje kluczowe wąskie gardło i może umożliwić szkolenie w zakresie znacznie dłuższych zadań, umożliwiając pracę następnym pokoleniom”.



