Twórcy Terminal-Bench, pakietu porównawczego do oceny wydajności autonomicznych agentów AI w rzeczywistych zadaniach terminalowych, wydali wersję 2.0 wraz z Harbour, nową platformą do testowania, ulepszania i optymalizowania agentów AI w środowiskach kontenerowych.
Podwójne wydanie ma na celu rozwiązanie długotrwałych problemów związanych z testowaniem i optymalizacją agentów AI, szczególnie tych zbudowanych do autonomicznego działania w realistycznych środowiskach programistycznych.
Dzięki trudniejszemu i rygorystycznie sprawdzonemu zestawowi zadań Terminal-Bench 2.0 zastępuje wersję 1.0 jako standard oceny możliwości modelu granicznego.
Harbour, towarzyszące środowisko wykonawcze, umożliwia programistom i badaczom skalowanie ocen do tysięcy kontenerów w chmurze oraz integruje się z otwartymi i zastrzeżonymi agentami oraz procesami szkoleniowymi.
„Harbor to pakiet, który chcieliśmy mieć podczas tworzenia Terminal-Bench” – napisał współtwórca Alex Shaw na X. „Jest przeznaczony dla agentów, modeli, programistów i badaczy, którzy chcą oceniać i udoskonalać agentów i modele”.
Wyższy pasek, czystsze dane
Terminal-Bench 1.0 szybko został przyjęty po wydaniu w maju 2025 r., stając się domyślnym punktem odniesienia do oceny wydajności agentów w obszarze agentów wykorzystujących sztuczną inteligencję działających w środowiskach terminalowych przypominających programistów. Agenci ci wchodzą w interakcję z systemami za pośrednictwem wiersza poleceń, naśladując sposób, w jaki programiści pracują za kulisami graficznego interfejsu użytkownika.
Jednak jego szeroki zakres wiąże się z niespójnościami. Społeczność uznała, że kilka zadań jest słabo określonych lub niestabilnych ze względu na zmiany w usługach zewnętrznych.
Wersja 2.0 bezpośrednio rozwiązuje te problemy. Zaktualizowany pakiet zawiera 89 zadań, z których każde przeszło kilkugodzinne ręczne sprawdzanie przy pomocy LLM. Nacisk kładziony jest na to, aby zadania były rozwiązywalne, realistyczne i jasno określone, podnosząc górną granicę trudności przy jednoczesnej poprawie niezawodności i powtarzalności.
Godnym uwagi przykładem jest download-youtube task, które zostało usunięte lub poddane refaktoryzacji w wersji 2.0 ze względu na jego zależność od niestabilnych interfejsów API innych firm.
„Wnikliwi fani Terminal-Bench mogą zauważyć, że wydajność SOTA jest porównywalna z wydajnością TB1.0, pomimo naszego twierdzenia, że TB2.0 jest trudniejsza” – zauważył Shaw w X. „Uważamy, że dzieje się tak dlatego, że jakość zadań jest znacznie wyższa w nowym benchmarku”.
Port: ujednolicone prezentacje w dużych ilościach
Wraz z aktualizacją testu porównawczego zespół wystartował Portnowa platforma do uruchamiania i oceniania agentów w kontenerach wdrażanych w chmurze.
Port obsługuje infrastrukturę na dużą skalę, z kompatybilnością z głównymi dostawcami usług, takimi jak Daytona I Modalny.
Zaprojektowany z myślą o uogólnianiu architektury agentów, Harbour obsługuje:
-
Ocena dowolnego agenta, który można zainstalować w kontenerze
-
Skalowalne potoki nadzorowanego dostrajania (SFT) i uczenia się przez wzmacnianie (RL).
-
Tworzenie i wdrażanie niestandardowego benchmarku
-
Pełna integracja z Terminal-Bench 2.
Port był używany wewnętrznie do przeprowadzenia dziesiątek tysięcy wdrożeń podczas tworzenia nowego benchmarku. Jest teraz publicznie dostępny na stronie Harborframework.com, wraz z dokumentacją niezbędną do testowania i zgłaszania agentów do publicznej tablicy liderów.
Wczesne wyniki: GPT-5 prowadzi w wykonywaniu zadań
Wstępne wyniki z tabeli liderów Terminal-Bench 2.0 pokazują, że na czele znajduje się Codex CLI (interfejs wiersza poleceń) OpenAI, wariant oparty na GPT-5, ze wskaźnikiem powodzenia na poziomie 49,6% — najwyższym ze wszystkich testowanych dotychczas agentów.
Tuż za nimi plasują się warianty GPT-5 oraz agenci bazujący na Claude Sonnet 4.5.
5 najlepszych wyników agentów (Terminal-Bench 2.0):
-
Kodeks CLI (GPT-5) — 49,6%
-
Kodeks CLI (Kodeks GPT-5) — 44,3%
-
OpenHands (GPT-5) — 43,8%
-
Terminus 2 (Kodeks GPT-5) — 43,4%
-
Terminus 2 (Claude Sonnet 4.5) — 42,8%
Ścisłe skupienie najlepszych modeli wskazuje na aktywną konkurencję między platformami, przy czym żaden pojedynczy agent nie obsługuje więcej niż połowy zadań.
Składanie i wykorzystanie
Aby przetestować lub wysłać agenta, użytkownicy instalują Harbour i uruchamiają test porównawczy za pomocą prostych poleceń CLI. Aby ubiegać się o miejsce w tabeli liderów, potrzeba pięciu testów, a wyniki można przesłać do programistów pocztą elektroniczną wraz z katalogami stanowisk w celu weryfikacji.
uruchomienie portu -d terminal-bench@2.0 -m “
Terminal-Bench 2.0 jest już integrowany z przepływami pracy badawczymi skupiającymi się na rozumowaniu opartym na agentach, generowaniu kodu i użyciu narzędzi. Według współtwórcy Mike’a Merrilla, doktora habilitowanego na Uniwersytecie Stanforda, trwają prace nad szczegółowym drukiem wstępnym obejmującym proces weryfikacji i metodologię projektowania leżącą u podstaw benchmarku.
Dążenie do standaryzacji
Połączone wydanie Terminal-Bench 2.0 i Harbour stanowi krok w kierunku bardziej spójnej i skalowalnej infrastruktury oceny agentów. W miarę rozprzestrzeniania się agentów LLM w środowiskach programistycznych i operacyjnych wzrosło zapotrzebowanie na kontrolowane, powtarzalne testy.
Narzędzia te stanowią potencjalną podstawę dla ujednoliconego pakietu ewaluacyjnego – wspierającego ulepszanie modeli, symulację środowiska i standaryzację testów porównawczych w całym ekosystemie sztucznej inteligencji.



