Tech

Dostarczaj szybko, optymalizuj później: najlepsi inżynierowie AI nie przejmują się kosztami — ich priorytetem jest wdrożenie

W różnych branżach jako przeszkodę we wdrażaniu sztucznej inteligencji często wymienia się rosnące koszty obliczeń, ale wiodące firmy odkrywają, że koszty nie są już prawdziwym ograniczeniem. Trudniejsze wyzwania (i te, o których myśli wielu liderów technologicznych)? Opóźnienie, elastyczność i pojemność. Na przykład w Wonder sztuczna inteligencja dodaje tylko kilka centrów na zamówienie; Firma zajmująca się dostawą i wynosem żywności jest znacznie bardziej zainteresowana pojemnością chmury przy gwałtownie rosnących wymaganiach. Rekurencja z kolei miała na celu zrównoważenie małych i dużych szkoleń oraz wdrożeń za pośrednictwem lokalnych klastrów i chmury; dało to firmie biotechnologicznej elastyczność umożliwiającą szybkie eksperymentowanie. Prawdziwe doświadczenia firm w praktyce podkreślają szerszy trend branżowy: w przypadku przedsiębiorstw pracujących ze sztuczną inteligencją na dużą skalę ekonomia nie jest kluczowym czynnikiem decydującym – rozmowa przesunęła się z tego, jak płacić za sztuczną inteligencję, na to, jak szybko można ją wdrożyć i utrzymać. Liderzy sztucznej inteligencji z obu firm rozmawiali niedawno z dyrektorem generalnym i redaktorem naczelnym Venturebeat Mattem Marshallem w ramach serii podróżniczej AI Impact organizowanej przez VB. Oto, czym się podzielili.

Cud: Zastanów się, co zakładasz na temat pojemności

Wonder wykorzystuje sztuczną inteligencję do obsługi wszystkiego, od rekomendacji po logistykę, ale obecnie, jak podaje CTO James Chen, sztuczna inteligencja dodaje zaledwie kilka centów do zamówienia. Chen wyjaśnił, że element technologiczny zamawiania posiłku kosztuje 14 centów, a sztuczna inteligencja kosztuje od 2 do 3 centów, chociaż „bardzo szybko rośnie” do 5 do 8 centów. Wydaje się to jednak prawie nieistotne w porównaniu z całkowitymi kosztami operacyjnymi. Zamiast tego głównym zmartwieniem firmy zajmującej się sztuczną inteligencją w 100% natywną w chmurze była pojemność przy rosnącym popycie. Chen zauważył, że Wonder został zbudowany przy „założeniu” (które okazało się fałszywe), że będzie „nieograniczona pojemność”, dzięki czemu będą mogli poruszać się „superszybko” i nie muszą się martwić o zarządzanie infrastrukturą. Jednak w ciągu ostatnich kilku lat firma znacznie się rozwinęła, powiedział; w rezultacie około sześć miesięcy temu „zaczęliśmy otrzymywać słabe sygnały od dostawców usług w chmurze, którzy mówili: «Hej, może powinieneś pomyśleć o przejściu do regionu drugiego»”, ponieważ w miarę wzrostu zapotrzebowania kończyła im się moc obliczeniowa lub pojemność pamięci masowej w swoich obiektach. „Bardzo szokujące” było to, że musieli przejść na plan B wcześniej, niż oczekiwano. „Oczywiście dobrą praktyką jest działanie międzyregionalne, ale myśleliśmy, że może jeszcze dwa lata później” – powiedział Chen.

Co nie jest (jeszcze) opłacalne ekonomicznie

Chen zauważył, że Wonder zbudował własny model, aby zwiększyć współczynnik konwersji; celem jest odkrywanie nowych restauracji dla jak największej liczby odpowiednich klientów. Są to „izolowane scenariusze”, w których modele są z czasem szkolone, aby były „bardzo, bardzo wydajne i bardzo szybkie”. Chen zauważył, że obecnie w przypadku Wondera najlepszym wyborem są duże modele. Jednak w dłuższej perspektywie chcieliby przejść na małe modele, które są niezwykle dostosowane do indywidualnych potrzeb (za pośrednictwem agentów AI lub concierge) na podstawie ich historii zakupów, a nawet strumienia kliknięć. „Posiadanie tych mikromodeli jest zdecydowanie najlepsze, ale obecnie ich cena jest bardzo wysoka” – zauważył Chen. „Jeśli spróbujesz stworzyć po jednym dla każdej osoby, będzie to po prostu nieekonomiczne”.

Budżetowanie jest sztuką, a nie nauką

Wonder daje swoim programistom i analitykom danych możliwie najwięcej miejsca na eksperymenty, a wewnętrzne zespoły sprawdzają koszty użytkowania, aby upewnić się, że nikt nie podłączył modelu i nie „wykonał ogromnych obliczeń za ogromny rachunek” – powiedział Chen. Firma stara się przenieść różne rzeczy na sztuczną inteligencję i działać w ramach marginesów. „Ale bardzo trudno jest zaplanować budżet, ponieważ nie ma się pojęcia” – powiedział. Jednym z wyzwań jest tempo rozwoju; kiedy pojawia się nowy model, „nie możemy po prostu tam siedzieć, prawda? Musimy go używać”. Budżetowanie dla nieznanej ekonomii systemu opartego na tokenach to „zdecydowanie sztuka kontra nauka”. Wyjaśnił, że kluczowym elementem cyklu życia oprogramowania jest zachowanie kontekstu podczas korzystania z modeli o dużych źródłach. Gdy znajdziesz coś, co działa, możesz dodać to do „korpusu kontekstu” swojej firmy, który można przesłać przy każdym żądaniu. Jest duży i za każdym razem kosztuje. „Ponad 50%, a nawet 80% kosztów wynika z wysyłania tych samych informacji z powrotem do tego samego mechanizmu na każde żądanie” – powiedział Chen. Teoretycznie im więcej robią, tym mniejszy koszt jednostkowy. „Wiem, że kiedy dojdzie do transakcji, zapłacę X centów podatku od każdej z nich, ale nie chcę ograniczać się do wykorzystania technologii do realizacji wszystkich innych kreatywnych pomysłów”.

„Moment usprawiedliwienia” rekurencji

Recursion ze swojej strony skupiła się na zaspokajaniu szerokich potrzeb obliczeniowych poprzez hybrydową infrastrukturę lokalnych klastrów i wnioskowanie w chmurze. Kiedy początkowo chciała zbudować infrastrukturę sztucznej inteligencji, musiała skorzystać z własnej konfiguracji, ponieważ „dostawcy usług w chmurze nie mieli zbyt wielu dobrych ofert” – wyjaśnił CTO Ben Mabey. „Momentem usprawiedliwienia był fakt, że potrzebowaliśmy większej mocy obliczeniowej, zwróciliśmy się do dostawców usług w chmurze i odpowiedzieli: «Może za mniej więcej rok».” Pierwszy klaster firmy w 2017 r. obejmował procesor graficzny Nvidia do gier (1080, wprowadzony na rynek w 2016 r.); od tego czasu dodali Nvidia H100 i A100 i korzystają z klastra Kubernetes, który działają w chmurze lub lokalnie. Odnosząc się do kwestii trwałości, Mabey zauważyła: „Te procesory graficzne do gier są w rzeczywistości nadal w użyciu, co jest szaleństwem, prawda? Mit, że żywotność procesorów graficznych wynosi tylko trzy lata, zdecydowanie nie jest prawdą. Procesory A100 nadal znajdują się na szczycie listy, są koniem pociągowym w branży”.

Najlepsze przypadki użycia lokalnie lub w chmurze; różnice kosztów

Niedawno zespół Mabeya przeszkolił podstawowy model w repozytorium obrazów Recursion (które składa się z petabajtów danych i ponad 200 obrazów). To i inne typy dużych zadań szkoleniowych wymagają „masowego klastra” i powiązanych konfiguracji wielowęzłowych. „Kiedy potrzebujemy w pełni połączonej sieci i dostępu do wielu danych w wysoce równoległym systemie plików, korzystamy z wersji premium” – wyjaśnił. Z drugiej strony krótsze zadania działają w chmurze. Metoda rekurencji polega na „wywłaszczaniu” procesorów graficznych i jednostek przetwarzania Google Tensor (TPU), co jest procesem przerywania uruchomionych zadań GPU w celu pracy nad zadaniami o wyższym priorytecie. „Ponieważ nie zwracamy uwagi na prędkość w przypadku niektórych obciążeń związanych z wnioskowaniem, podczas których ładujemy dane biologiczne, niezależnie od tego, czy są to dane obrazowe, dane sekwencjonowania, czy dane DNA” – wyjaśnił Mabey. „Możemy powiedzieć: «Daj nam to za godzinę» i nie ma problemu, jeśli to zabije interesy”. Mabey zauważyła, że ​​z punktu widzenia kosztów przenoszenie dużych obciążeń lokalnie jest „konserwatywnie” 10 razy tańsze; przy pięcioletnim TCO to połowa ceny. Z drugiej strony, w przypadku mniejszych potrzeb w zakresie przechowywania, chmura może być „dość konkurencyjna” pod względem kosztów. Ostatecznie Mabey nalegał, aby liderzy technologii wycofali się i ustalili, czy naprawdę chcą zaangażować się w sztuczną inteligencję; opłacalne rozwiązania zwykle wymagają zakupów wieloletnich. „Z psychologicznego punktu widzenia widziałem naszych rówieśników, którzy nie chcieli inwestować w informatykę i w rezultacie zawsze płacili na żądanie” – powiedziała Mabey. „Ich zespoły używają znacznie mniej komputerów, ponieważ nie chcą zwiększać rachunków za chmurę. Ludzie, którzy nie chcą wydawać pieniędzy, naprawdę wstrzymują innowacje”.

Enlace de origen