Nowa platforma opracowana przez badaczy z Google Cloud i DeepMind ma na celu sprostanie jednemu z kluczowych wyzwań związanych z opracowywaniem agentów użytkowania komputera (CUA): gromadzeniu dużej liczby wysokiej jakości przykładów szkoleniowych.
Rama, zsynchronizowana Oglądaj i ucz się (W&L), rozwiązuje problem generowania danych szkoleniowych w sposób, który nie wymaga adnotacji człowieka i może automatycznie wyodrębniać demonstracje z surowych filmów.
Ich eksperymenty pokazują, że wygenerowane dane W&L można wykorzystać do szkolenia lub dostrajania istniejących modeli i podstaw korzystania z komputera w celu poprawy ich wydajności w zadaniach związanych z korzystaniem z komputera. Ale co równie ważne, to samo podejście można zastosować do tworzenia uczenie się w kontekście (ICL) przykłady agentów do wykorzystania na komputerach, które umożliwiają firmom tworzenie niestandardowych CUA do zadań wewnętrznych bez konieczności kosztownego szkolenia wyspecjalizowanych modeli.
Wąskie gardło danych CUA
Sieć jest bogata w samouczki wideo i zrzuty ekranu opisujące złożone przepływy pracy związane z korzystaniem z aplikacji. Te filmy to kopalnia złota, jaką może zapewnić agentów obsługujących komputer z wiedzą dziedzinową i instrukcjami wykonywania różnych zadań poprzez interakcje w interfejsie użytkownika.
Zanim jednak będzie można je wykorzystać do szkolenia agentów CUA, filmy te muszą zostać przekształcone w oznaczone trajektorie (tj. zestaw opisów zadań, zrzutów ekranu i działań), co jest procesem, który jest zbyt kosztowny i czasochłonny, gdy jest wykonywany ręcznie.
Istniejące podejścia do rozwiązania problemu wąskiego gardła w danych polegają na oznaczaniu tych filmów przy użyciu wielomodalnych modeli językowych, co zazwyczaj skutkuje niską dokładnością i błędnymi przykładami. Inne podejście wykorzystuje samogrających się agentów, którzy autonomicznie eksplorują interfejsy użytkownika w celu gromadzenia trajektorii. Jednak techniki wykorzystujące to podejście zwykle dają proste przykłady, które nie są przydatne w nieprzewidywalnych sytuacjach w świecie rzeczywistym.
Jak zauważają naukowcy w swoim artykule: „Ogólnie rzecz biorąc, podejścia te albo opierają się na delikatnej heurystyce, albo są drogie, ponieważ opierają się na badaniach w rzeczywistych środowiskach, albo generują demonstracje o niskim stopniu złożoności, które nie są zgodne z ludzkimi intencjami”.
Oglądaj i ucz się
Struktura Watch & Learn próbuje stawić czoła wyzwaniom związanym z tworzeniem demonstracji CUA poprzez ponowne przemyślenie sformułowania problemu.
Zamiast bezpośrednio generować trajektorie lub polegać na złożonych wieloetapowych rurociągach, badacze traktują problem jako „cel odwrotnej dynamiki”: na podstawie dwóch kolejnych obserwacji można przewidzieć interakcję, która spowodowała przejście.
Według naukowców sformułowanie to jest „łatwiejsze do nauczenia, pozwala uniknąć ręcznie opracowanych heurystyk i pozwala na niezawodne uogólnianie w różnych zastosowaniach”.
Ramy W&L można podzielić na trzy kluczowe fazy: szkolenie odwrotnego modelu dynamicznego (IDM), pobieranie nieprzetworzonego wideo i szkolenie agentów CUA.
W pierwszej fazie badacze wykorzystali agenty do interakcji z aktywnymi stronami internetowymi, aby utworzyć duży zbiór 500 000 zmian stanu (dwie kolejne obserwacje i działanie, które spowodowało przejście). Następnie wykorzystali te dane (wraz ze 132 000 przejść z adnotacjami ludzkimi z istniejących otwartych zbiorów danych) do wytrenowania modelu dynamiki odwrotnej (IDM), który uwzględnia dwie kolejne obserwacje i przewiduje działanie przejścia. Wyszkolony przez nich IDM, będący modelem małego transformatora, uzyskał lepsze wyniki niż standardowe modele podstawowe w przewidywaniu działań przejściowych.
Następnie badacze zaprojektowali potok, który pobiera filmy z platform takich jak YouTube i przepuszcza je przez IDM w celu wygenerowania utworów wysokiej jakości. IDM pobiera kolejne klatki wideo i określa akcje (przesuwanie, klikanie), które spowodowały zmiany w środowisku, które następnie są pakowane w oznaczone ścieżki. Korzystając z tej metody, wygenerowano 53 125 trajektorii z etykietami działań o dużej dokładności.
Przykłady te można wykorzystać do szkolenia wydajnych modeli wykorzystania komputera do określonych zadań. Badacze odkryli jednak również, że trajektorie wyodrębnione za pomocą IDM mogą służyć jako przykłady uczenia się w kontekście w celu poprawy wydajności CUA w przypadku dostosowanych zadań z czasem wnioskowania. W przypadku ICL używają programu Gemini 2.5 Flash w celu dodania dodatkowych not objaśniających do przykładów obserwacji/działań na trajektoriach, które następnie można wstawić do zapytania agenta CUA (zwykle 3–5 przykładów) podczas wnioskowania.
„Ta podwójna rola (szkolenie i wskazówki w kontekście) umożliwia elastyczną integrację z modelami open source i agentami ogólnego przeznaczenia” – piszą naukowcy.
W&L w akcji
Aby przetestować przydatność W&L, badacze przeprowadzili serię eksperymentów z modelami o zamkniętym i otwartym kodzie źródłowym Test porównawczy OSWorldktóry ocenia agentów w rzeczywistych środowiskach komputerów stacjonarnych i systemów operacyjnych pod kątem różnych zadań, w tym produktywności, programowania i projektowania.
W celu dokładnego dostrojenia wykorzystali zbiór 53 000 trajektorii do wytrenowania dwóch modeli typu open source: UI-TARS-1.5, potężnego modelu wizji, języka i działania typu open source, zaprojektowanego specjalnie do użytku komputerowego, oraz Qwen 2,5-VLotwarty multimodalny LLM.
Do testów uczenia się w kontekście zastosowali przykłady W&L do modeli multimodalnych ogólnego przeznaczenia, takich jak Gemini 2.5 Flash, OpenAI o3 i Claude Sonnet 4.
W&L zaowocowało ulepszeniami OSWorld we wszystkich kategoriach modeli, w tym do 3 punktów za ICL w modelach ogólnego przeznaczenia i do 11 punktów za precyzyjnie dostrojone modele open source.
Co ważniejsze, korzyści te osiągnięto bez żadnych ręcznych adnotacji, „co pokazuje, że przepływy pracy wykonywane przez ludzi w Internecie mogą służyć jako praktyczna i skalowalna podstawa do udoskonalenia CUA w kierunku wdrożenia w świecie rzeczywistym” – piszą naukowcy.
Może to mieć istotne implikacje dla zastosowań w świecie rzeczywistym, umożliwiając firmom przekształcanie istniejących korpusów nagrań wideo i konferencji w dane szkoleniowe dla CUA. Ułatwia także generowanie nowych trajektorii szkoleniowych. Wszystko, co musisz zrobić, to nagrać filmy z wykonywanych zadań i otrzymać adnotacje od IDM. A ponieważ pionierskie modele stale się udoskonalają i stają się coraz tańsze, możesz spodziewać się, że wydobędziesz więcej z istniejących danych, a dziedzina będzie nadal się rozwijać.



