Home Tech Nowa metoda uczenia usprawnia multimodalne wnioskowanie AI dzięki mniejszym, inteligentniejszym zbiorom danych

Nowa metoda uczenia usprawnia multimodalne wnioskowanie AI dzięki mniejszym, inteligentniejszym zbiorom danych

12
0

Opublikowali to naukowcy z MiroMind AI i kilku chińskich uniwersytetów OtwórzMMReasonernowe ramy szkoleniowe, które poprawiają możliwości modeli językowych w zakresie wnioskowania multimodalnego.

W ramach tego procesu zastosowano proces dwuetapowy. Najpierw udoskonala model bazowy za pomocą wybranego zestawu danych w fazie nadzorowanego dostrajania (SFT). Następnie faza uczenia się przez wzmacnianie (RL) prowadzi model do bardziej efektywnego wnioskowania w zadaniach obejmujących zarówno dane tekstowe, jak i wizualne.

Eksperymenty pokazują, że modele wyszkolone za pomocą OpenMMReasoner przewyższają inne wiodące modele wnioskowania wizualnego, często szkolone na mniejszym zestawie danych o wyższej jakości. Framework i wszystkie jego zasoby, w tym przeszkolony model 7B, są w pełni open source, zapewniając niezawodną podstawę do tworzenia aplikacji wymagających identyfikowalności i niezawodności.

Zdaniem Kaichena Zhanga, współautora artykułu badawczego opisującego nową metodę, OpenMMReasoner oferuje znaczące korzyści firmom wykraczającym poza duże, zamknięte systemy. „Mniejszy model wnioskowania typu open source ma praktyczne zalety: przedsiębiorstwa mogą go wdrożyć lokalnie, zmniejszyć opóźnienia, zmniejszyć koszty symboliczne związane z długimi łańcuchami wnioskowania, zachować pełną kontrolę nad swoimi danymi i (jest) dostosowany do konkretnych zadań” – powiedział VentureBeat.

Wyzwanie przejrzystego myślenia multimodalnego

Niedawne postępy w uczeniu się przez wzmacnianie za pomocą weryfikowalnych nagród (RLVR) znacznie poprawiły możliwości rozumowania dużych modeli językowych (LLM). RLVR szkoli LLM w zakresie generowania łańcuch myśli (CoT) (które naśladują procesy myślowe używane przez ludzi) przed wygenerowaniem ostatecznej odpowiedzi. Poprawia to zdolność modelu do radzenia sobie ze złożonymi zadaniami myślowymi, takimi jak matematyka i kodowanie.

Zachęceni tym sukcesem badacze zastosowali podobne metody oparte na RL duże modele multimodalne (LMM), pokazując, że korzyści mogą wykraczać poza tekst i poprawiać zrozumienie wizualne i rozwiązywanie problemów we wszystkich modalnościach.

Główną przeszkodą był jednak brak przejrzystości w planowaniu szkoleń. Wiele badań dotyczących myślenia multimodalnego nie dostarcza szczegółowych informacji na temat procesów przetwarzania danych i uczenia, co utrudnia odtworzenie ich wyników lub zrozumienie, co sprawia, że ​​te modele działają.

„Ten brak otwartości ogranicza powtarzalność i utrudnia głębsze zrozumienie, w jaki sposób faktycznie budowane są LMM zdolne do rozumowania i jak ewoluuje ich dynamika uczenia się” – zauważają naukowcy.

Przepis OpenMMReasoner

OpenMMReasoner usuwa tę wadę, oferując w pełni przejrzystą i skalowalną recepturę szkoleniową zbudowaną na modułach LMM typu open source. Naukowcy odkryli, że przygotowanie wysokiej jakości zbiorów danych poprzez skalowanie różnorodności danych ma kluczowe znaczenie. Chociaż korzystanie z różnych źródeł danych jest ważne, zasadniczą osią poprawy było zwiększenie różnorodności prawidłowych odpowiedzi na to samo pytanie.

Pierwszy etap przepisu to trzyetapowy potok nadzorowanego dostrajania (SFT). Zaczęło się od źródła danych, w którym zespół zebrał około 103 000 nieprzetworzonych par pytanie-odpowiedź z publicznych zbiorów danych obejmujących ogólne wizualne zadania typu „pytanie i odpowiedź” oraz wnioskowanie. Następnie dodali dane etap destylacjiprzy użyciu solidnego modelu (Qwen3-VL-235B-Instrukcje) w celu wygenerowania nowych, wysokiej jakości ścieżek myślenia dla wybranych pytań. (Dane zostaną następnie użyte do uczenia mniejszego modelu).

Aby zwiększyć różnorodność odpowiedzi, zespół wygenerował wiele potwierdzonych wskazówek do uzasadnienia dla każdego pytania. Tym samym zbiór danych powiększono do 583 000 próbek. Na koniec wdrożono fazę „łączenia domen”, dodając dane z dziedziny rozumowania matematycznego w celu dalszego uogólnienia możliwości modelu, w wyniku czego uzyskano ostateczny zestaw danych SFT obejmujący 874 000 przykładów.

Drugi etap to przepis RL wykorzystujący mniejszy zbiór danych składający się z 74 000 próbek wybranych z dziedzin takich jak nauki ścisłe, matematyka i łamigłówki. Model jest szkolony za pomocą złożonej funkcji nagrody, która uwzględnia zarówno dokładność ostatecznej odpowiedzi, jak i spójność formatu wyjściowego. Aby poprawić wydajność, proces obejmuje karę za „przemyślenie”, zniechęcając model do generowania zbyt długich odpowiedzi (problem występujący w wielu modelach rozumowania wytrenowanych przez RL, które błędnie uczą się generować zbyt długie ciągi myślowe, co skutkuje narzutem i wolniejszymi odpowiedziami).

Ten przepis może stanowić wzór dla firm szkolących własne modele. „W przypadku firm dysponujących ograniczoną liczbą danych dotyczących konkretnej domeny wykonalną strategią jest najpierw zwiększenie różnorodności odpowiedzi w przypadku istniejącego zbioru danych, a następnie zastosowanie łączenia domen w celu zintegrowania tych danych z domeny w ogólny przepis myślenia, taki jak nasz” – wyjaśnił Zhang. „Dzięki temu model może nabyć silne umiejętności wnioskowania ogólnego, a jednocześnie dostosować się do zadań specyficznych dla danej branży, bez konieczności pobierania milionów próbek”.

Bardziej wydajny i kompetentny model rozumowania

Według Zhanga proces krok po kroku zasadniczo zmienia niezawodność wyników modelu. „Tradycyjne modele często «przeskakują» bezpośrednio do odpowiedzi, co oznacza, że ​​badają jedynie wąską część przestrzeni myślenia” – powiedział. „Z drugiej strony podejście oparte na rozumowaniu zmusza model do wyraźnego zbadania wielu etapów pośrednich… (pozwalając na to) przemierzenie znacznie głębszych ścieżek i uzyskanie odpowiedzi o znacznie większej spójności wewnętrznej”.

Naukowcy wykorzystali przepis OpenMMReasoner do wygenerowania danych w celu dostrojenia modelu języka wizyjnego Qwen2.5-VL-7B-Instruct o otwartym kodzie źródłowym. Rezultatem jest bardzo wydajny LMM, który konsekwentnie przewyższa najnowocześniejsze metody, takie jak Rozumnik otwartej wizji (OVR), w szerokim zakresie multimodalnych wartości referencyjnych. Sama faza SFT tworzy solidny model bazowy, który osiąga lepszą wydajność i efektywność danych w porównaniu z innymi podejściami SFT, pomimo wykorzystania znacznie mniejszego zbioru danych szkoleniowych.

Następna faza RL dodatkowo wyostrza i stabilizuje te zdolności, prowadząc do bardziej spójnej i lepszej wydajności. Po RL ostateczny model osiąga najnowocześniejsze wyniki w kilku testach porównawczych, w tym WeMath, MathVerse i MathVista.

Jednym z kluczowych odkryć było to, że w miarę udoskonalania modelu w zakresie rozumowania multimodalnego wykazano także „stopniowe pojawianie się zachowań związanych z rozumowaniem tekstowym, co sugeruje przeniesienie zdolności rozumowania z dziedzin multimodalnych do dziedzin czysto językowych” – zauważają naukowcy. Sugeruje to, że umiejętności zdobyte w ramach jednego modalności mogą poprawić wyniki w innym.

„Nasze wyniki pokazują, że wzmocnienie rozumowania multimodalnego może nawet poprawić umiejętności matematyczne związane wyłącznie z tekstem – pod warunkiem, że podstawowe umiejętności logiczne można przenieść między modalnościami” – powiedział Zhang. „Patrząc w przyszłość, spodziewamy się, że metody te zostaną rozszerzone na wideo i audio”.

Naukowcy odkryli również, że kluczowa jest wydajność tokenów. Chociaż umożliwienie modelowi generowania dłuższych kroków myślowych może poprawić wydajność, nadmierne tokeny zmniejszają wydajność. Ich wyniki pokazują, że ustawienie mniejszego „budżetu do obliczeń” pozwala uzyskać porównywalną lub nawet lepszą dokładność, co jest ważnym czynnikiem przy wdrażaniu opłacalnych aplikacji biznesowych.

Za open source wszystkie komponenty Podczas swojej pracy badacze zapewniają powtarzalny obraz całego procesu. Dla zespołów biznesowych ta przejrzystość jest nieoceniona. „Dla liderów biznesowych zaniepokojonych wiązaniem dostawców, ukrytymi uprzedzeniami lub nieprzejrzystymi źródłami danych ten poziom przejrzystości jest niezbędny” – powiedział Zhang. „Pozwala zespołom weryfikować dane, dostosowywać potok dla nowych domen i zachować długoterminową niezależność od dowolnego dostawcy”.

Enlace de origen