Tech

AI chce cię uszczęśliwić. Nawet jeśli będzie musiał zniekształcić prawdę

Generacyjna sztuczna inteligencja jest niezwykle popularna i codziennie korzystają z niej miliony użytkowników, więc dlaczego chatboty często popełniają błędy? Dzieje się tak częściowo dlatego, że są przeszkoleni, aby zachowywać się tak, jak gdyby klient miał zawsze rację. Zasadniczo mówi Ci to, co według Ciebie chcesz usłyszeć.

Chociaż wiele generatywnych narzędzi sztucznej inteligencji i chatbotów udało się opanować, brzmiąc wiarygodnie i wszechwiedząco, nowe badania przeprowadzone na Uniwersytecie Princeton pokazują, że sztuczna inteligencja przyjemna dla człowieka ma wysoką cenę. W miarę jak systemy te stają się coraz bardziej popularne, stają się coraz bardziej obojętne na prawdę.


Nie przegap żadnej z naszych bezstronnych treści technicznych i recenzji laboratoriów. Dodaj CNET jako preferowane źródło Google.


Modele AI, podobnie jak ludzie, reagują na bodźce. Porównaj problem dużych modeli językowych wytwarzających niedokładne informacje z problemem polegającym na tym, że lekarze częściej przepisują uzależniające leki przeciwbólowe, gdy ocenia się ich na podstawie tego, jak dobrze radzą sobie z bólem pacjentów. Chęć rozwiązania jednego problemu (bólu) doprowadziła do innego problemu (przepisywania nadmiernych ilości leków).

W ciągu ostatnich kilku miesięcy widzieliśmy, jak sztuczna inteligencja może być stronnicza, a nawet powodować psychozę. Wiele mówiło się o „skradaniu się” sztucznej inteligencji, gdy chatbot AI szybko schlebia Ci lub zgadza się z Tobą w przypadku modelu GPT-4o OpenAI. Ale to szczególne zjawisko, które badacze nazywają „bzdurą maszynową”, jest inne.

„(N)halucynacja ani pochlebstwo w pełni odzwierciedlają szeroką gamę systematycznych, nieprawdziwych zachowań powszechnie wykazywanych przez osoby z wykształceniem wyższym” – stwierdzono w badaniu Princeton. „Na przykład wyniki zawierające częściowe prawdy lub dwuznaczny język – takie jak przykłady fałszywych słów i łasic – nie reprezentują ani halucynacji, ani pochlebstwa, ale są ściśle powiązane z koncepcją bzdur”.

Przeczytaj więcej: Dyrektor generalny OpenAI Sam Altman uważa, że ​​żyjemy w bańce sztucznej inteligencji

Jak maszyny uczą się kłamać

Aby zrozumieć, w jaki sposób modele językowe AI stają się przyjemne dla tłumu, musimy zrozumieć, w jaki sposób szkolone są duże modele językowe.

Szkolenie LLM składa się z trzech etapów:

  • Przed treningiemw którym modele uczą się na podstawie ogromnych ilości danych zebranych z Internetu, książek lub innych źródeł.
  • Instrukcje dostrajaniaw którym modele uczą się odpowiadać na instrukcje lub zapytania.
  • Wzmocnienie uczenia się na podstawie informacji zwrotnych od ludziw którym są one udoskonalane w celu uzyskania odpowiedzi bliższych temu, czego ludzie chcą lub lubią.

Badacze z Princeton odkryli, że źródłem skłonności sztucznej inteligencji do dezinformacji jest uczenie się przez wzmacnianie na podstawie informacji zwrotnych od ludzi, czyli faza RLHF. Na początkowych etapach modele sztucznej inteligencji po prostu uczą się przewidywać statystycznie prawdopodobne ciągi tekstowe na podstawie ogromnych zbiorów danych. Następnie są one dopracowywane tak, aby zmaksymalizować satysfakcję użytkownika. Oznacza to, że modele te zasadniczo uczą się generować odpowiedzi, które uzyskują pozytywne oceny gorsze niż osoby oceniające.

LLM starają się zadowolić użytkownika, tworząc konflikt, gdy modele dają odpowiedzi, które ludzie będą wysoko oceniać, zamiast podawać prawdziwe, oparte na faktach odpowiedzi.

Vincent Conitzer, profesor informatyki na Uniwersytecie Carnegie Mellon, który nie był związany z badaniem, powiedział, że firmy chcą, aby użytkownicy w dalszym ciągu „cieszyli się” technologią i jej funkcjami, ale nie zawsze będzie to dla nas dobre.

„Historycznie rzecz biorąc, te systemy nie były dobre w mówieniu: «Po prostu nie znam odpowiedzi», a kiedy nie znają odpowiedzi, po prostu zmyślają” – powiedział Conitzer. „To trochę jak student na egzaminie, który mówi: cóż, jeśli powiem, że nie znam odpowiedzi, na pewno nie dostanę żadnych punktów za to pytanie, więc równie dobrze mogę czegoś spróbować. Sposób, w jaki te systemy są nagradzane i szkolone, jest nieco podobny”.

Zespół Princeton opracował „wskaźnik bzdur”, aby zmierzyć i porównać wewnętrzne zaufanie modelu sztucznej inteligencji do oświadczenia z tym, co faktycznie mówi użytkownikom. Kiedy te dwie miary znacząco się od siebie różnią, oznacza to, że system formułuje twierdzenia niezależnie od tego, co faktycznie „uważa” za prawdę, aby zadowolić użytkownika.

Eksperymenty zespołu wykazały, że po treningu RLHF wskaźnik niemal się podwoił z 0,38 do blisko 1,0. Jednocześnie zadowolenie użytkowników wzrosło o 48%. Modele nauczyły się manipulować ludzkimi estymatorami, zamiast dostarczać dokładnych informacji. Zasadniczo LLM były „bzdury” i ludzie je woleli.

Szczerze mówiąc, zdobądź sztuczną inteligencję

Jaime Fernández Fisac ​​i jego zespół w Princeton wprowadzili tę koncepcję, aby opisać, w jaki sposób współczesne modele sztucznej inteligencji omijają prawdę. Czerpiąc inspirację z wpływowego eseju filozofa Harry’ego Frankfurta „O bzdurach”, używają tego terminu, aby odróżnić zachowanie LLM od uczciwych błędów i zwykłych kłamstw.

Badacze z Princeton zidentyfikowali pięć różnych form tego zachowania:

  • Pusta retoryka: Kwiecisty język, który nie dodaje treści odpowiedziom.
  • Łasica słowa: Niejasne kwalifikatory, takie jak „badania sugerują” lub „w niektórych przypadkach”, które unikają stanowczych stwierdzeń.
  • powłoka: Używanie selektywnych stwierdzeń faktów w celu wprowadzenia w błąd, na przykład podkreślanie „silnych historycznych zysków” z inwestycji przy jednoczesnym pomijaniu wysokiego ryzyka.
  • Niezweryfikowane twierdzenia: Wysuwanie twierdzeń bez dowodów i wiarygodnego wsparcia.
  • Lizanie: Nieszczere pochlebstwa i zgoda na pochlebstwa.

Aby rozwiązać problemy sztucznej inteligencji obojętnej na prawdę, zespół badawczy opracował nową metodę szkoleniową „Uczenie się przez wzmacnianie na podstawie symulacji z perspektywy czasu”, która ocenia reakcje sztucznej inteligencji na podstawie ich długoterminowych wyników, a nie natychmiastowej satysfakcji. Zamiast pytać: „Czy ta odpowiedź uszczęśliwia użytkownika w tej chwili?” system rozważa: „Czy przestrzeganie tych wskazówek naprawdę pomoże użytkownikowi osiągnąć jego cele?”

Podejście to uwzględnia możliwe przyszłe konsekwencje porad dotyczących sztucznej inteligencji, co jest trudną prognozą, którą badacze rozwiązali, wykorzystując dodatkowe modele sztucznej inteligencji do symulacji prawdopodobnych wyników. Wczesne testy dały obiecujące wyniki, zwiększając satysfakcję użytkowników i rzeczywistą użyteczność, gdy systemy są szkolone w ten sposób.

Conitzer stwierdził jednak, że studia doktoranckie prawdopodobnie nadal będą wykazywać niedociągnięcia. Ponieważ systemy te są szkolone poprzez wprowadzanie dużej ilości danych tekstowych, nie ma sposobu, aby upewnić się, że udzielana przez nie odpowiedź ma sens i jest za każdym razem poprawna.

„To niesamowite, że to w ogóle działa, ale pod pewnymi względami będzie miało wady” – powiedział. „Nie widzę ostatecznego sposobu, aby w ciągu najbliższego roku lub dwóch ktoś mógł uzyskać tę błyskotliwą wiedzę i nigdy więcej nie popełnić błędu”.

Systemy sztucznej inteligencji stają się częścią naszego codziennego życia, dlatego kluczowe będzie zrozumienie, jak działają LLM. W jaki sposób programiści równoważą satysfakcję użytkownika i prawdomówność? Jakie inne dziedziny mogą stanąć w obliczu podobnych kompromisów między krótkoterminową akceptacją a długoterminowymi wynikami? A w miarę jak systemy te stają się coraz bardziej zdolne do wyrafinowanego myślenia o psychologii człowieka, w jaki sposób możemy zapewnić, że będą one wykorzystywać te możliwości w sposób odpowiedzialny?

Przeczytaj więcej: „Maszyny nie mogą myśleć za ciebie”. Jak zmienia się uczenie się w dobie sztucznej inteligencji



Enlace de origen

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *