Agenci AI to okropni freelancerzy

Nawet najlepsze Jak wynika z eksperymentu, który kwestionuje pogląd, że sztuczna inteligencja masowo zastępuje pracowników biurowych, agenci sztucznej inteligencji są raczej beznadziejni w pracy niezależnej w Internecie.

Indeks telepracy, nowy benchmark opracowany przez badaczy z firmy Scale AI zajmującej się adnotacjami danych i organizacji non-profit Center for AI Safety (CAIS), mierzy zdolność pionierskich modeli sztucznej inteligencji do automatyzacji ekonomicznie wartościowej pracy.

Badacze zapewnili kilku czołowym agentom AI serię symulowanych niezależnych zleceń i odkryli, że nawet najlepsi mogą wykonać mniej niż 3 procent pracy, zarabiając 1810 dolarów z możliwych 143 991 dolarów. Badacze przejrzeli kilka narzędzi i odkryli, że najbardziej wydajny był Manus z chińskiego startupu o tej samej nazwie, następnie Grok firmy xAI, Claude firmy Anthropic, ChatGPT firmy OpenAI i Gemini firmy Google.

„Mam nadzieję, że daje to znacznie dokładniejszy obraz tego, co dzieje się z możliwościami sztucznej inteligencji” – mówi Dan Hendrycks, dyrektor CAIS. Dodaje, że choć w ciągu ostatniego roku niektórzy agenci znacznie się poprawili, nie oznacza to, że sytuacja utrzyma się w tym samym tempie.

Spektakularny postęp sztucznej inteligencji doprowadził do spekulacji, że sztuczna inteligencja wkrótce przewyższy inteligencję ludzką i zastąpi ogromną liczbę pracowników. W marcu Dario Amodei, dyrektor generalny Anthropic, zasugerował, że 90 procent prac związanych z kodowaniem zostanie zautomatyzowanych w ciągu kilku miesięcy.

Poprzednie fale sztucznej inteligencji zainspirowały błędne przewidywania dotyczące zmiany pracy, takie jak nieuniknione zastąpienie radiologów algorytmami sztucznej inteligencji.

Badacze wygenerowali serię niezależnych zadań za pośrednictwem zweryfikowanych pracowników Upwork. Zadania obejmują szeroki zakres zadań, w tym projektowanie graficzne, edycję wideo, tworzenie gier i zadania administracyjne, takie jak zbieranie danych. Połączyli opis każdego zadania z katalogiem plików potrzebnych do wykonania zadania i przykładem gotowego projektu stworzonego przez człowieka.

Hendrycks twierdzi, że chociaż w ostatnich latach modele sztucznej inteligencji poprawiły się w kodowaniu, matematyce i logicznym rozumowaniu, nadal mają problemy z używaniem różnych narzędzi i wykonywaniem złożonych zadań obejmujących wiele etapów. „Nie mają pamięci długotrwałej i nie potrafią się ciągle uczyć na podstawie doświadczeń. Nie potrafią nabywać umiejętności w pracy tak jak ludzie” – mówi.

Analiza stanowi kontrapunkt dla oferowanej we wrześniu przez OpenAI wartości referencyjnej pracy ekonomicznej zwanej PKBval, która rzekomo mierzy pracę wartościową ekonomicznie. Według PKBval graniczne modele sztucznej inteligencji, takie jak GPT-5, zbliżają ludzkie możliwości w przypadku 220 zadań w różnych zawodach biurowych. OpenAI nie skomentował tej sprawy.

Enlace de origen