Tech

Badania Databricks pokazują, że budowanie lepszych sędziów AI to nie tylko problem techniczny, to problem ludzki

Inteligencja modeli AI nie jest tym, co blokuje wdrożenia w przedsiębiorstwach. Jest to przede wszystkim niemożność zdefiniowania i zmierzenia jakości.

To tutaj sędziowie AI odgrywają obecnie coraz ważniejszą rolę. W ocenie AI „sędzia” to system AI, który ocenia wyniki innego systemu AI.

Judge Builder to platforma Databricks do tworzenia sędziów, która została po raz pierwszy wdrożona jako część firmy Agent Bricks technologii na początku tego roku. Struktura znacznie ewoluowała od czasu jej pierwszego uruchomienia w odpowiedzi na bezpośrednie opinie użytkowników i implementacji.

Wczesne wersje skupiały się na implementacji technicznej, ale opinie użytkowników ujawniły, że prawdziwym wąskim gardłem było dostosowanie organizacyjne. Databricks oferuje teraz ustrukturyzowany proces warsztatów, który prowadzi zespoły przez trzy kluczowe wyzwania: nakłonienie interesariuszy do uzgodnienia kryteriów jakości, pozyskanie wiedzy specjalistycznej w danej dziedzinie od ekspertów z określonej dziedziny oraz wdrożenie systemów oceny na dużą skalę.

„Inteligencja modeli zwykle nie jest wąskim gardłem, modele są naprawdę inteligentne” – powiedział VentureBeat Jonathan Frankle, główny naukowiec zajmujący się sztuczną inteligencją w Databricks, podczas ekskluzywnej odprawy. „Zamiast tego tak naprawdę chodzi o to, jak sprawić, by modele zrobiły to, czego od nich oczekujemy i skąd mamy wiedzieć, czy zrobiły to, czego od nich oczekiwaliśmy?”

„Problem Uroborosa” oceny sztucznej inteligencji

Judge Builder zajmuje się tym, co Pallavi Koppol, naukowiec z Databricks, który kierował rozwojem, nazywa „problemem Uroborosa”. Uroboros to starożytny symbol przedstawiający węża zjadającego własny ogon.

Stosowanie systemu sztucznej inteligencji do oceny systemu sztucznej inteligencji stwarza wyzwanie związane z walidacją okrężną.

„Chcesz, aby sędzia sprawdził, czy twój system jest dobry, czy twój system sztucznej inteligencji jest dobry, ale wtedy twój sędzia również jest systemem sztucznej inteligencji” – wyjaśnił Koppol. „A teraz mówisz: no cóż, skąd mam wiedzieć, że ten sędzia jest dobry?”

Rozwiązaniem jest zmierzenie „odległości do ludzkiej prawdy eksperckiej” jako podstawowej funkcji punktacji. Zmniejszając rozbieżność między sposobem, w jaki sędzia AI ocenia wyniki, a tym, jak oceniliby je eksperci dziedzinowi, organizacje mogą zaufać tym sędziom jako skalowalnym zamiennikom ludzkiej oceny.

Podejście to zasadniczo różni się od tradycyjnego systemy ogrodzeń ochronnych lub szacunki unimetryczne. Zamiast pytać, czy wyniki sztucznej inteligencji przeszły ogólną kontrolę jakości, czy nie, Judge Builder tworzy bardzo szczegółowe kryteria oceny dostosowane do dziedziny wiedzy specjalistycznej i wymagań biznesowych każdej organizacji.

Wyróżniają go także parametry techniczne. Judge Builder integruje się z MLflow i szybka optymalizacja narzędzi i może współpracować z dowolnym modelem bazowym. Zespoły mogą kontrolować wersje swoich sędziów, śledzić wyniki w czasie i zatrudniać wielu sędziów jednocześnie w różnych wymiarach jakości.

Wyciągnięte wnioski: budowanie sędziów, którzy naprawdę działają

Praca projektu Databricks z użytkownikami biznesowymi ujawniła trzy kluczowe wnioski, które mają zastosowanie dla każdego, kto tworzy sędziów AI.

Lekcja pierwsza: Twoi eksperci nie zgadzają się tak bardzo, jak myślisz. Kiedy jakość jest subiektywna, organizacje stwierdzają, że nawet eksperci w ich danej dziedzinie nie zgadzają się co do tego, co stanowi akceptowalny wynik. Odpowiedź obsługi klienta może być zgodna z faktami, ale powinna być użyta w nieodpowiednim tonie. Podsumowanie finansowe może być wyczerpujące, ale zbyt techniczne dla docelowej grupy odbiorców.

„Jedną z największych lekcji płynących z tego całego procesu jest to, że wszystkie problemy stają się problemami ludzi” – powiedział Frankle. „Najtrudniej jest przełożyć pomysł z czyjegoś mózgu na coś jednoznacznego. A najtrudniejsze jest to, że firmy to nie jeden mózg, ale wiele mózgów”.

Naprawa ma charakter zbiorczej uwagi i podlega kontroli wiarygodności między podmiotami oceniającymi. Zespoły komentują przykłady w małych grupach, a następnie mierzą wyniki zgodności, zanim przejdą dalej. To wcześnie ujawnia niedopasowanie. W jednym przypadku trzech ekspertów przyznało tym samym wynikom oceny 1, 5 i neutralne, zanim dyskusja ujawniła, że ​​mieli różne interpretacje kryteriów oceny.

Firmy stosujące to podejście osiągają oceny wiarygodności między podmiotami oceniającymi na poziomie zaledwie 0,6 w porównaniu z typowymi wynikami wynoszącymi 0,3 w przypadku zewnętrznych usług etykietowania. Większa zgodność bezpośrednio przekłada się na lepszą wydajność sędziego, ponieważ dane szkoleniowe zawierają mniej szumów.

Lekcja druga: Rozdaj niejasne kryteria konkretnym sędziom. Zamiast zlecać jednemu sędziemu ocenę, czy odpowiedź jest „istotna, rzeczowa i zwięzła”, należy utworzyć trzech odrębnych sędziów. Każdy z nich koncentruje się na konkretnym aspekcie jakości. Ta szczegółowość jest ważna, ponieważ słaby wynik „ogólnej jakości” wskazuje, że coś jest nie tak, ale nie wskazuje, co należy naprawić.

Najlepsze wyniki uzyskuje się poprzez połączenie wymagań odgórnych, takich jak ograniczenia regulacyjne, priorytety interesariuszy, z oddolnym wykrywaniem zaobserwowanych wzorców awarii. Jeden z klientów zbudował narzędzie do oceny dokładności metodą „z góry na dół”, ale po analizie danych okazało się, że prawidłowe odpowiedzi prawie zawsze zawierały dwa pierwsze wyniki wyszukiwania. To spostrzeżenie stało się nowym, przyjaznym dla produkcji osądem, który może być wskaźnikiem dokładności bez konieczności stosowania etykiet zawierających prawdę.

Lekcja trzecia: Potrzebujesz mniej przykładów, niż myślisz. Zespoły mogą stworzyć silnych sędziów na podstawie zaledwie 20–30 dobrze wybranych przykładów. Kluczem jest wybór skrajnych przypadków, które ujawniają różnicę zdań, a nie oczywistych przykładów, w których wszyscy się zgadzają.

„W przypadku niektórych zespołów możemy rozpocząć ten proces już w trzy godziny, więc znalezienie dobrego sędziego naprawdę nie zajmuje dużo czasu” – powiedział Koppol.

Wyniki produkcyjne: od pilotaży po siedmiocyfrowe wdrożenia

Frankle podzielił się trzema wskaźnikami, które Databricks wykorzystuje do pomiaru sukcesu Judge Builder: czy klienci chcą z niego korzystać ponownie, czy zwiększają swoje wydatki na sztuczną inteligencję oraz czy postępują dalej na swojej drodze do sztucznej inteligencji.

W przypadku pierwszego miernika jeden klient po wstępnych warsztatach stworzył kilkunastu sędziów. „Ten klient przekonał kilkunastu sędziów po tym, jak przeprowadziliśmy ich przez rygorystyczną pracę z tym frameworkiem po raz pierwszy” – powiedział Frankle. „Naprawdę poszaleli z sędziami i teraz wszystko mierzą”.

W przypadku drugiego wskaźnika wpływ na działalność gospodarczą jest wyraźny. „Wielu klientów przeszło przez te warsztaty i stało się siedmiocyfrowymi konsumentami GenAI w Databricks w sposób, w jaki nie byli wcześniej” – powiedział Frankle.

Trzecia metryka ujawnia strategiczną wartość Judge Builder. Klienci, którzy wcześniej wahali się przed stosowaniem zaawansowanych technik, takich jak uczenie się przez wzmacnianie, teraz czują się pewniej, wdrażając je, ponieważ mogą zmierzyć, czy faktycznie nastąpiła poprawa.

„Są klienci, którzy dokonali bardzo zaawansowanych rzeczy po skorzystaniu z pomocy tych sędziów, a wcześniej byli niechętni” – powiedział Frankle. „Przeszli z nami od krótkiej inżynierii do uczenia się przez wzmacnianie. Po co wydawać pieniądze na uczenie się przez wzmacnianie i po co marnować energię na uczenie się przez wzmacnianie, jeśli nie wiesz, czy to naprawdę zrobiło różnicę?”

Co firmy powinny teraz zrobić

Zespoły, które pomyślnie przenoszą sztuczną inteligencję z etapu pilotażowego do produkcyjnego, traktują sędziów nie jako artefakty jednorazowego użytku, ale jako zasoby, które ewoluują i rosną wraz z ich systemami.

Databricks zaleca trzy praktyczne kroki. Po pierwsze, skoncentruj się na sędziach mających wpływ, identyfikując jeden krytyczny wymóg regulacyjny oraz jeden postrzegany tryb niepowodzenia. Stają się one Twoim początkowym portfolio sędziowskim.

Po drugie, twórz lekkie przepływy pracy z ekspertami w danej dziedzinie. Kilka godzin przeglądu 20–30 marginalnych spraw zapewnia wystarczającą kalibrację dla większości sędziów. Korzystaj ze zbiorczych notatek i kontroli wiarygodności między osobami oceniającymi, aby usunąć szumy z danych.

Po trzecie, zaplanuj regularne recenzje sędziowskie, korzystając z danych produkcyjnych. Nowe tryby awarii pojawią się w miarę ewolucji systemu. Twoje portfolio sędziowskie powinno ewoluować wraz z nimi.

„Ocena to sposób na ocenę modelu, to także sposób na utworzenie poręczy, to także sposób na uzyskanie metryki, na podstawie której można przeprowadzić szybką optymalizację, a także sposób na uzyskanie metryki, na podstawie której można przeprowadzić uczenie się przez wzmacnianie” – powiedział Frankle. „Kiedy już będziesz mieć sędziego, o którym wiesz, że reprezentuje on twój ludzki gust w formie empirycznej, którego możesz przesłuchiwać tak często, jak chcesz, możesz go używać na 10 000 różnych sposobów, aby mierzyć lub ulepszać swoich agentów”.

Enlace de origen