Premiera Terminal-Bench 2.0 z Harbour, nową platformą do testowania agentów w kontenerach

Twórcy Terminal-Bench, pakietu porównawczego do oceny wydajności autonomicznych agentów AI w rzeczywistych zadaniach terminalowych, wydali wersję 2.0 wraz z Harbour, nową platformą do testowania, ulepszania i optymalizowania agentów AI w środowiskach kontenerowych.

Podwójne wydanie ma na celu rozwiązanie długotrwałych problemów związanych z testowaniem i optymalizacją agentów AI, szczególnie tych zbudowanych do autonomicznego działania w realistycznych środowiskach programistycznych.

Dzięki trudniejszemu i rygorystycznie sprawdzonemu zestawowi zadań Terminal-Bench 2.0 zastępuje wersję 1.0 jako standard oceny możliwości modelu granicznego.

Harbour, towarzyszące środowisko wykonawcze, umożliwia programistom i badaczom skalowanie ocen do tysięcy kontenerów w chmurze oraz integruje się z otwartymi i zastrzeżonymi agentami oraz procesami szkoleniowymi.

„Harbor to pakiet, który chcieliśmy mieć podczas tworzenia Terminal-Bench” – napisał współtwórca Alex Shaw na X. „Jest przeznaczony dla agentów, modeli, programistów i badaczy, którzy chcą oceniać i udoskonalać agentów i modele”.

Wyższy pasek, czystsze dane

Terminal-Bench 1.0 szybko został przyjęty po wydaniu w maju 2025 r., stając się domyślnym punktem odniesienia do oceny wydajności agentów w obszarze agentów wykorzystujących sztuczną inteligencję działających w środowiskach terminalowych przypominających programistów. Agenci ci wchodzą w interakcję z systemami za pośrednictwem wiersza poleceń, naśladując sposób, w jaki programiści pracują za kulisami graficznego interfejsu użytkownika.

Jednak jego szeroki zakres wiąże się z niespójnościami. Społeczność uznała, że kilka zadań jest słabo określonych lub niestabilnych ze względu na zmiany w usługach zewnętrznych.

Wersja 2.0 bezpośrednio rozwiązuje te problemy. Zaktualizowany pakiet zawiera 89 zadań, z których każde przeszło kilkugodzinne ręczne sprawdzanie przy pomocy LLM. Nacisk kładziony jest na to, aby zadania były rozwiązywalne, realistyczne i jasno określone, podnosząc górną granicę trudności przy jednoczesnej poprawie niezawodności i powtarzalności.

Godnym uwagi przykładem jest download-youtube task, które zostało usunięte lub poddane refaktoryzacji w wersji 2.0 ze względu na jego zależność od niestabilnych interfejsów API innych firm.

„Wnikliwi fani Terminal-Bench mogą zauważyć, że wydajność SOTA jest porównywalna z wydajnością TB1.0, pomimo naszego twierdzenia, że TB2.0 jest trudniejsza” – zauważył Shaw w X. „Uważamy, że dzieje się tak dlatego, że jakość zadań jest znacznie wyższa w nowym benchmarku”.

Port: ujednolicone prezentacje w dużych ilościach

Wraz z aktualizacją testu porównawczego zespół wystartował Portnowa platforma do uruchamiania i oceniania agentów w kontenerach wdrażanych w chmurze.

Port obsługuje infrastrukturę na dużą skalę, z kompatybilnością z głównymi dostawcami usług, takimi jak Daytona I Modalny.

Zaprojektowany z myślą o uogólnianiu architektury agentów, Harbour obsługuje:

Ocena dowolnego agenta, który można zainstalować w kontenerze
Skalowalne potoki nadzorowanego dostrajania (SFT) i uczenia się przez wzmacnianie (RL).
Tworzenie i wdrażanie niestandardowego benchmarku
Pełna integracja z Terminal-Bench 2.

Port był używany wewnętrznie do przeprowadzenia dziesiątek tysięcy wdrożeń podczas tworzenia nowego benchmarku. Jest teraz publicznie dostępny na stronie Harborframework.com, wraz z dokumentacją niezbędną do testowania i zgłaszania agentów do publicznej tablicy liderów.

Wczesne wyniki: GPT-5 prowadzi w wykonywaniu zadań

Wstępne wyniki z tabeli liderów Terminal-Bench 2.0 pokazują, że na czele znajduje się Codex CLI (interfejs wiersza poleceń) OpenAI, wariant oparty na GPT-5, ze wskaźnikiem powodzenia na poziomie 49,6% — najwyższym ze wszystkich testowanych dotychczas agentów.

Tuż za nimi plasują się warianty GPT-5 oraz agenci bazujący na Claude Sonnet 4.5.

5 najlepszych wyników agentów (Terminal-Bench 2.0):

Kodeks CLI (GPT-5) — 49,6%
Kodeks CLI (Kodeks GPT-5) — 44,3%
OpenHands (GPT-5) — 43,8%
Terminus 2 (Kodeks GPT-5) — 43,4%
Terminus 2 (Claude Sonnet 4.5) — 42,8%

Ścisłe skupienie najlepszych modeli wskazuje na aktywną konkurencję między platformami, przy czym żaden pojedynczy agent nie obsługuje więcej niż połowy zadań.

Składanie i wykorzystanie

Aby przetestować lub wysłać agenta, użytkownicy instalują Harbour i uruchamiają test porównawczy za pomocą prostych poleceń CLI. Aby ubiegać się o miejsce w tabeli liderów, potrzeba pięciu testów, a wyniki można przesłać do programistów pocztą elektroniczną wraz z katalogami stanowisk w celu weryfikacji.

uruchomienie portu -d terminal-bench@2.0 -m “” -A “” –n-tries 5 –jobs-dir

Terminal-Bench 2.0 jest już integrowany z przepływami pracy badawczymi skupiającymi się na rozumowaniu opartym na agentach, generowaniu kodu i użyciu narzędzi. Według współtwórcy Mike’a Merrilla, doktora habilitowanego na Uniwersytecie Stanforda, trwają prace nad szczegółowym drukiem wstępnym obejmującym proces weryfikacji i metodologię projektowania leżącą u podstaw benchmarku.

Dążenie do standaryzacji

Połączone wydanie Terminal-Bench 2.0 i Harbour stanowi krok w kierunku bardziej spójnej i skalowalnej infrastruktury oceny agentów. W miarę rozprzestrzeniania się agentów LLM w środowiskach programistycznych i operacyjnych wzrosło zapotrzebowanie na kontrolowane, powtarzalne testy.

Narzędzia te stanowią potencjalną podstawę dla ujednoliconego pakietu ewaluacyjnego – wspierającego ulepszanie modeli, symulację środowiska i standaryzację testów porównawczych w całym ekosystemie sztucznej inteligencji.

Enlace de origen