Tech

ACE zapobiega zapadaniu się kontekstu dzięki „ewoluującym grom” dla samodoskonalących się agentów AI

Nowa ramka od Uniwersytet Stanforda I Samba Nowa rozwiązuje kluczowe wyzwanie związane z budowaniem solidnych agentów AI: inżynierię kontekstu. Zwany Inżynieria kontekstu agencji (ACE) platforma automatycznie wypełnia i modyfikuje okno kontekstowe aplikacji z dużym modelem języka (LLM), traktując je jako „ewoluujący podręcznik”, który tworzy i udoskonala strategie w miarę zdobywania przez agenta doświadczenia w jego środowisku.

ACE zaprojektowano tak, aby przezwyciężyć kluczowe ograniczenia innych struktur inżynierii kontekstu, zapobiegając degradacji kontekstu modelu w miarę gromadzenia większej ilości informacji. Eksperymenty pokazują, że ACE sprawdza się zarówno w optymalizacji podpowiedzi systemowych, jak i zarządzaniu pamięcią agenta, przewyższając inne metody, a jednocześnie jest znacznie bardziej wydajny.

Wyzwanie inżynierii kontekstowej

Zaawansowane aplikacje AI korzystające z LLM w dużym stopniu opierają się na „adaptacji kontekstu” lub inżynierii kontekstu, aby kierować swoim zachowaniem. Zamiast kosztownego procesu przekwalifikowania lub dostrajania modelu, programiści korzystają z LLM umiejętności uczenia się w kontekście kierować jego zachowaniem, modyfikując podpowiedzi za pomocą konkretnych instrukcji, etapów myślenia lub wiedzy specyficznej dla domeny. Te dodatkowe informacje są zwykle uzyskiwane w trakcie interakcji agenta ze swoim otoczeniem oraz gromadzenia nowych danych i doświadczeń. Kluczowym celem inżynierii kontekstu jest uporządkowanie nowych informacji w sposób poprawiający wydajność modelu i pozwalający uniknąć jego pomyłki. Podejście to staje się głównym paradygmatem budowania wydajnych, skalowalnych i samodoskonalących się systemów sztucznej inteligencji.

Inżynieria kontekstowa ma kilka zalet w zastosowaniach biznesowych. Konteksty można interpretować zarówno dla użytkowników, jak i programistów, można je aktualizować o nową wiedzę w czasie wykonywania i można je udostępniać między modelami. Inżynieria kontekstowa czerpie również korzyści ze stałego postępu w sprzęcie i oprogramowaniu, np rosnące okna kontekstowe LLM i skuteczne techniki wnioskowania, takie jak buforowanie szybkie i kontekstowe.

Istnieją różne techniki zautomatyzowanej inżynierii kontekstu, ale większość z nich ma dwa kluczowe ograniczenia. Pierwszym z nich jest „błąd zwięzłości”, w przypadku którego metody szybkiej optymalizacji faworyzują zwięzłe, ogólne instrukcje zamiast kompleksowych i szczegółowych. Może to obniżyć wydajność w złożonych domenach.

Innym, trudniejszym problemem jest „załamanie kontekstu”. Kiedy LLM ma za zadanie wielokrotne przepisywanie całego zgromadzonego kontekstu, może cierpieć na rodzaj cyfrowej amnezji.

„To, co nazywamy „zapadnięciem się kontekstu”, ma miejsce, gdy sztuczna inteligencja próbuje przepisać lub skompresować wszystko, czego się nauczyła, w jedną nową wersję swojej reakcji lub pamięci” – stwierdzili naukowcy w pisemnych komentarzach dla VentureBeat. „Z biegiem czasu proces przepisywania usuwa ważne szczegóły — na przykład przepisywanie dokumentu tyle razy, że znikają najważniejsze notatki. W systemach skierowanych do klienta może to oznaczać, że pracownik wsparcia nagle traci świadomość przeszłych interakcji… powodując błędne lub niespójne zachowanie”.

Naukowcy argumentują, że „konteksty nie powinny funkcjonować jako zwięzłe streszczenia, ale jako obszerne, rozwijające się książki – szczegółowe, inkluzywne i bogate w spostrzeżenia dziedzinowe”. Podejście to opiera się na sile nowoczesnych LLM, które mogą skutecznie wydobywać znaczenie z długich i szczegółowych kontekstów.

Jak działa agentyczna inżynieria kontekstowa (ACE).

ACE to kompleksowy framework do adaptacji kontekstu przeznaczony do zadań offline, np.: szybka optymalizacja systemui scenariusze sieciowe, takie jak aktualizacje pamięci w czasie rzeczywistym dla agentów. Zamiast podsumowywać informacje, ACE traktuje kontekst jako dynamiczną książeczkę, która gromadzi i organizuje strategie w czasie.

Ramy dzielą pracę na trzy wyspecjalizowane role: generator, reflektor i kurator. Inspiracją dla tej modułowej konstrukcji jest „sposób, w jaki ludzie uczą się — eksperymentując, rozważając i konsolidując — unikając jednocześnie wąskiego gardła w postaci przeciążania pojedynczego modelu wszystkimi obowiązkami” – czytamy w artykule.

Przepływ pracy rozpoczyna się od generatora, który tworzy ścieżki myślowe dla zapytań wejściowych, podkreślając zarówno skuteczne strategie, jak i typowe błędy. Następnie narzędzie Reflector analizuje te ścieżki, aby wyciągnąć kluczowe wnioski. Na koniec kurator syntetyzuje te lekcje w zwarte aktualizacje i łączy je z istniejącą broszurą.

Aby zapobiec zawijaniu się kontekstu i stronniczości zwięzłości, ACE uwzględnia dwie kluczowe zasady projektowania. Po pierwsze, wykorzystuje aktualizacje przyrostowe. Kontekst jest reprezentowany jako zbiór ustrukturyzowanych, indywidualnych znaczników graficznych zamiast pojedynczego bloku tekstu. Dzięki temu ACE może wprowadzać szczegółowe zmiany i pobierać najbardziej istotne informacje bez konieczności przepisywania całego kontekstu.

Po drugie, ACE wykorzystuje mechanizm „wzrostu i doskonalenia”. W miarę gromadzenia nowych doświadczeń do podręcznika dodawane są nowe punkty, a istniejące są aktualizowane. Etap deduplikacji regularnie usuwa zbędne wpisy, zapewniając, że kontekst pozostaje kompleksowy, a jednocześnie istotny i zwarty w miarę upływu czasu.

ACE w akcji

Naukowcy ocenili ACE pod kątem dwóch typów zadań, które korzystają z zmieniającego się kontekstu: testów porównawczych agentów, które wymagają wielorakiego myślenia i użycia narzędzi, oraz testów porównawczych analizy finansowej specyficznej dla domeny, które wymagają specjalistycznej wiedzy. W branżach wymagających wysokich stawek, takich jak finanse, korzyści wykraczają poza samą wydajność. Jak ujęli to naukowcy, ramy są „znacznie bardziej przejrzyste: specjalista ds. zgodności może dosłownie przeczytać, czego nauczyła się sztuczna inteligencja, ponieważ jest ona przechowywana w tekście czytelnym dla człowieka, a nie ukryta w miliardach parametrów”.

Wyniki pokazały, że ACE konsekwentnie osiąga lepsze wyniki niż mocne wartości bazowe, takie jak GEPA oraz klasyczne uczenie się w kontekście, osiągając średnią poprawę wydajności o 10,6% w przypadku zadań agenta i 8,6% w testach porównawczych specyficznych dla domeny w ustawieniach offline i online.

Co najważniejsze, ACE może budować efektywne konteksty, analizując informacje zwrotne ze swoich działań i otoczenia, zamiast wymagać ręcznego dodawania adnotacji do danych. Naukowcy zauważają, że umiejętność ta jest „kluczowym składnikiem samodoskonalenia LLM i agentów”. Publicznie Świat aplikacji benchmark, przeznaczony do oceny systemów agentowych, agent korzystający z ACE z mniejszym modelem open source (DeepSeek-V3.1) odpowiada wynikom najlepiej sklasyfikowanych, Agent z systemem GPT-4.1 średnio i uzyskał lepsze wyniki na trudniejszym zestawie testowym.

Raport dla firm jest istotny. „Oznacza to, że firmy nie muszą polegać na masowych, zastrzeżonych modelach, aby zachować konkurencyjność” – stwierdził zespół badawczy. „Mogą wdrażać modele lokalne, chronić wrażliwe dane, a mimo to uzyskiwać doskonałe wyniki dzięki ciągłemu udoskonalaniu kontekstu zamiast ponownego ustalania wag”.

Oprócz dokładności, ACE okazał się bardzo skuteczny. Dostosowuje się do nowych zadań ze średnio o 86,9% mniejszymi opóźnieniami niż istniejące metody i wymaga mniejszej liczby kroków i tokenów. Naukowcy podkreślają, że ta wydajność pokazuje, że „skalowalne samodoskonalenie można osiągnąć przy większej dokładności i niższych kosztach”.

W przypadku przedsiębiorstw zaniepokojonych kosztami wnioskowania badacze wskazują, że dłuższe konteksty tworzone przez ACE nie oznaczają proporcjonalnie wyższych kosztów. Nowoczesne infrastruktury usługowe są w coraz większym stopniu optymalizowane pod kątem obciążeń kontekstowych za pomocą technik takich jak ponowne wykorzystanie pamięci podręcznej KV, kompresja i odciążanie, które amortyzują obciążenie związane z obsługą rozległego kontekstu.

Ostatecznie ACE wskazuje na przyszłość, w której systemy AI są dynamiczne i stale udoskonalane. „Dziś tylko inżynierowie sztucznej inteligencji mogą aktualizować modele, ale inżynieria kontekstowa otwiera drzwi ekspertom dziedzinowym – prawnikom, analitykom, lekarzom – do bezpośredniego kształtowania wiedzy sztucznej inteligencji poprzez edycję jej księgi kontekstowej” – stwierdzili naukowcy. Dzięki temu zarządzanie jest również wygodniejsze. „Selektywne oduczanie się staje się znacznie bardziej tolerowane: jeśli informacja jest nieaktualna lub ma charakter prawnie wrażliwy, można ją po prostu usunąć lub zastąpić w odpowiednim kontekście, bez konieczności ponownego szkolenia modelu”.

Enlace de origen