Tech

Adaptacyjny spekulant Ai-is Atlas zapewnia 400% przyspieszenie wniosków, ucząc się na podstawie obciążenia pracą w czasie rzeczywistym

Firmy rozszerzające wdrożenia wpływają na niewidzialną ścianę wydajności. Winowajca? Statyczni spekulanci, którzy nie mogą monitorować przeniesienia obciążenia roboczego.

Spekulanci to mniejsze modele sztucznej inteligencji, które podczas zawierania transakcji współpracują z dużymi modelami językowymi. Z góry losują więcej żetonów, które następnie główny model sprawdza równolegle. Technika ta (zwana dekodowaniem spekulacyjnym) stała się ważna dla firm próbujących ograniczyć wnioski i opóźnić koszty. Zamiast generować tokeny jeden po drugim, system może przyjąć więcej tokenów na raz, co znacznie poprawia przepuszczalność.

Razem aj Dziś zapowiedział badanie i nowy system o nazwie Atlas (Adaptive Learning Special System), którego celem jest pomoc firmom w pokonaniu wyzwania, jakim są statyczni spekulanci. Technika ta zapewnia możliwość optymalizacji konkluzji self-10, co może pomóc w osiągnięciu do 400% szybszej konkluzji z podstawowego poziomu wydajności dostępnego w istniejących technologiach konkluzji, takich jak Vllm. System radzi sobie z krytycznym problemem: wraz ze wzrostem obciążenia AI prędkość wyciągania wniosków maleje, nawet w przypadku wyspecjalizowanych spekulantów.

Firma, która Zacząłem 2023. Koncentruje się na Optymalizacja wniosków na swojej platformie AI. Na początku tego roku firma zebrał 305 milionów dolarów Wraz ze wzrostem przyjęcia i popytu.

„Firmy, z którymi współpracujemy, w miarę wzrostu, widzą, że przenoszą obciążenia pracą, a potem nie zauważają tak dużego przyspieszenia od realizacji spekulacyjnej jak wcześniej” – przekazała trójka, główny naukowiec zajmujący się sztuczną inteligencją, w ekskluzywnym wywiadzie dla venturebeat. „Ci spekulanci na ogół nie działają dobrze, gdy ich domena obciążenia roboczego zaczyna się zmieniać”.

Problem z obciążeniem pracą polega na tym, że nikt nie mówi

Większość spekulantów w produkcji to dziś modele „statyczne”. Są szkoleni raz na stałym zestawie danych reprezentującym oczekiwane obciążenie robocze, a następnie wdrażani do nich bez żadnej opcji adaptacji. Firmy takie jak Meta i Mistral Brod Pre-dressed Speculants wraz ze swoimi głównymi modelami. Podsumowując, platforma taka jak Vllm używa tych statycznych spekulantów w celu zwiększenia przepuszczalności bez zmiany jakości danych wyjściowych.

Ale jest pewien haczyk. Kiedy w firmie zastosowanie sztucznej inteligencji zwiększa dokładność spekulacji statycznych.

„Jeśli tworzysz kod agentów kodujących i większość twoich programistów pisze w Pythonie, nagle niektórzy z nich przechodzą do pisania w języku rust lub C, wtedy widzisz, że prędkość zaczyna spadać” – wyjaśnił. „Spekulant ma rozdźwięk pomiędzy tym, czego się uczy, a tym, co stanowi prawdziwy nakład pracy”.

To obciążenie robocze stanowi ukryty podatek od skalowania AI. Firmy lub akceptują gorszą wydajność lub inwestują w przekwalifikowanie przystosowanych spekulantów. Ta procedura rejestruje tylko nagranie na czas i szybko staje się nieaktualna.

Jak działają spekulanci adaptacyjni: podejście z podwójnym modelem

Atlas wykorzystuje podwójną architekturę, która łączy stabilność z adaptacją:

Statyczny spekulant – Ciężki model przystosowany do szerokich danych zapewnia stałą podstawową wydajność. Służy jako „prędkość za prędkość”.

Adaptacyjny spekulant – Model światła stale uczy się na podstawie aktualnego ruchu drogowego. Specjalizuje się w ucieczce do nowych domen i wzorców użytkowania.

Kontroler świadomy zaufania – Warstwa orkiestracji dynamicznie wybiera, którego spekulanta użyje. Koryguje spekulacje „LookaHead” w oparciu o wyniki wiarygodności.

„Zanim spekulant adaptacyjny czegokolwiek się nauczy, wciąż mamy spekulant statyczny, który początkowo zwiększy prędkość” – wyjaśnił Ben ATHIWARATKUN, specjalista ds. sztucznej inteligencji w AI. „Kiedy spekulant adaptacyjny stanie się bezpieczniejszy, prędkość z czasem wzrośnie”.

Innowacja techniczna polega na równowadze współczynnika akceptacji (jak często docelowy model zgadza się z uruchomionymi tokenami) i opóźnieniu wersji roboczej. W miarę jak model adaptacyjny uczy się na podstawie próbek ruchu, kontroler w większym stopniu opiera się na spekulatorze światła i rozszerza funkcję Lookahead. Związki te osiągają wydajność.

Użytkownicy nie muszą dostosowywać żadnych parametrów. „Po stronie użytkownika użytkownicy nie muszą przełączać przycisków” – powiedział. „Z naszej strony zmieniliśmy te przyciski, aby dostosować je do użytkowników w konfiguracji zapewniającej dobrą prędkość”.

Wydajność przewyższająca niestandardowy krzem

Testy Together Ai pokazują, że Atlas osiąga 500 tokenów na sekundę w stosunku do Deepseek-V3.1 po pełnej adaptacji. Jeszcze bardziej imponujące, liczby te dotyczące procesora graficznego NVIDIA B200 pokrywają się lub przekraczają wyspecjalizowane układy, takie jak Groqs Niestandardowy sprzęt.

„Ulepszenie oprogramowania i algorytmów może wypełnić lukę w przypadku naprawdę wyspecjalizowanego sprzętu” – powiedział. „Zaobserwowaliśmy 500 tokenów na sekundę w tych ogromnych modelach, które są nawet szybsze niż niektóre przystosowane chipy”.

400% przyspieszeń, dla których twierdzi firma, to skumulowany efekt pakietu optymalizacji turbo. Kwantyzacja FP4 zapewnia przyspieszenie o 80% w stosunku do podstawowej wartości FP8. Statyczny spekulant turbo dodaje kolejne 80-100%. Warstwy systemu adaptacyjnego na górze. Każda optymalizacja łączy korzyści pozostałych.

W porównaniu do standardowych wniosków, takich jak vllm Lub tensorrt-lm Nvidii, poprawa jest znacząca. Razem wartości odniesienia AI w porównaniu z silniejszymi wartościami podstawowymi od dwóch dla każdego obciążenia roboczego przed zastosowaniem optymalizacji spekulacyjnych.

Wyjaśniono kompromis pamięci

Zwiększenie wydajności wynika z wykorzystania fundamentalnej nieefektywności, a nowoczesny wniosek: utraconej mocy obliczeniowej.

Wyjaśnił, że zwykle duża część obliczeń była zwykle wykorzystywana w całości podczas podsumowania.

„Podczas podsumowania, co obecnie stanowi dominujące obciążenie pracą, wykorzystuje się głównie podsystem pamięci” – powiedział.

Dekodowanie spekulatywne w pustym przejściu w celu ograniczenia dostępu do pamięci. Kiedy model generuje jeden token na raz, jest on powiązany z pamięcią. Karta graficzna pozostaje w stanie bezczynności i czeka na pamięć. Ale kiedy spekulant zaproponuje pięć tokenów, a model docelowy je potwierdzi w tym samym czasie, oblicz skoki użycia, podczas gdy dostęp do pamięci pozostanie mniej więcej stały.

„Całkowita liczba obliczeń potrzebnych do wygenerowania pięciu tokenów jest taka sama, ale wystarczyło podejść tylko raz, a nie pięć razy” – powiedział.

Wyobraź sobie to jako inteligentną pamięć podręczną dla sztucznej inteligencji

W przypadku zespołów zajmujących się infrastrukturą, które są zaznajomione z tradycyjną optymalizacją baz danych, spekulanci adaptacyjni działają jak inteligentna warstwa pamięci podręcznej, ale z zasadniczą różnicą.

Tradycyjne systemy pamięci podręcznej, takie jak redis lub memcached, wymagają dokładnego dopasowania. Przechowujesz ten sam wynik zadania i pobierasz go, gdy dane zadanie zostanie wznowione. Adaptacyjni spekulanci zachowują się inaczej.

„Można to postrzegać jako inteligentny sposób przechowywania danych w pamięci podręcznej, nie polegający na dokładnym przechowywaniu, ale odkrywaniu pewnych wzorców, które widzisz” – wyjaśnił. „Ogólnie rzecz biorąc, obserwujemy, jak pracujesz z podobnym kodem lub pracujesz z podobnymi, wiesz, kontrolujesz w podobny sposób. Wtedy możemy przewidzieć, co powie duży model. Po prostu jesteśmy coraz lepsi w przewidywaniu tego”.

Zamiast przechowywać dokładne odpowiedzi, system uczy się wzorców w sposobie generowania tokenów przez model. Rozpoznaje, że jeśli edytujesz pliki Pythona w określonej bazie kodu, pewne sekwencje tokenów stają się bardziej prawdopodobne. Spekulant dostosowuje się do tych wzorców, z biegiem czasu poprawiając swoje przewidywania bez konieczności stosowania identycznych wejść.

Przypadki użycia: szkolenie RL i rozwijanie obciążenia pracą

Dwa scenariusze spółek są szczególnie korzystne dla elastycznych spekulantów:

Trening wzmacniający: Statyczni spekulanci szybko wypadają z harmonizacji w miarę rozwoju polityki w trakcie szkolenia. Atlas jest na bieżąco dostosowywany do polityki dystrybucji zmian.

Rozwijanie obciążenia pracą: W miarę jak firmy wykrywają nowe przypadki wykorzystania sztucznej inteligencji, zmienia się rozkład obciążenia pracą. „Być może zaczęli używać sztucznej inteligencji w chatbocie, ale potem zdali sobie sprawę, że hej, może napisać kod, więc zaczęli przechodzić na kod” – powiedział. „Albo zdają sobie sprawę, że sztuczna inteligencja może faktycznie wywoływać narzędzia, kontrolować komputery, zajmować się księgowością i tym podobnymi rzeczami”.

Podczas sesji kodowania wibracyjnego system adaptacyjny może specjalizować się w określonej bazie edytowanego kodu. Są to pliki, których nie widać podczas treningu. To dodatkowo zwiększa szybkość akceptacji i prędkość dekodowania.

Co oznacza wnioski dla firm i ekosystemu

Atlas jest teraz dostępny razem na dedykowanych punktach końcowych AI jako część platformy bez dodatkowych kosztów. Dostęp do optymalizacji mają programiści z ponad 800 000 firm (w porównaniu do 450 000 w lutym).

Jednak szersze implikacje wykraczają poza produkt jednego dostawcy. Przejście od optymalizacji statycznej do adaptowalnej oznacza fundamentalną, ponowną analizę sposobu, w jaki powinny działać platformy badawcze. W miarę jak firmy wdrażają sztuczną inteligencję w wielu dziedzinach, branża będzie musiała wyjść poza jednorazowe modele szkolone zgodnie z systemami uczenia się i stale się doskonalić.

W przeszłości AI publikowało niektóre ze swoich technik badawczych jako oprogramowanie typu open source i współpracowało z projektami takimi jak Vllm. Chociaż posiadany jest w pełni zintegrowany system Atlas, niektóre podstawowe techniki mogą ostatecznie wpłynąć na szerszy ekosystem wniosków.

Dla firm, które chcą wprowadzić sztuczną inteligencję, przesłanie jest jasne: algorytmy adaptacyjne na dostępnym sprzęcie mogą dorównać zaadaptowanemu krzemowi za niewielką opłatą. W miarę jak podejście to dojrzewa w całej branży, optymalizacja oprogramowania obejmuje coraz bardziej wyspecjalizowany sprzęt.

Enlace de origen