- Długotrwała dominacja InfiniBand musi stawić czoła realnej presji ze strony ruchu otwartych standardów Ethernet
- Meta i Nvidia stawiają na otwartość w skalowaniu sieci AI
- Projekt ESUN łączy konkurentów z branży poprzez wspólne ambicje tworzenia sieci
Projekt Open Compute Project (OCP) ogłosił nową inicjatywę znaną jako Ethernet for Scale-Up Networking (ESUN), mającą na celu opracowanie otwartych standardów dla wysokowydajnych połączeń w klastrach sztucznej inteligencji.
Ta współpraca skupia firmy takie jak Meta, Nvidia, AMD, Cisco i OpenAI w celu zbadania, w jaki sposób Ethernet może konkurować z istniejącymi połączeniami wzajemnymi, takimi jak InfiniBand, w dużych centrach danych.
Inne firmy dołączające do współpracy to Arista, ARM, Broadcom, HPE Networking, Marvell, Microsoft i Oracle.
Otwarta sieć dla klastrów AI
InfiniBand od dawna dominuje na rynku szybkich sieci sieciowych AI, stanowiąc około 80% infrastruktury łączącej procesory graficzne i akceleratory.
Grupa ESUN uważa jednak, że dojrzałość Ethernetu, opłacalność i interoperacyjność czynią go silnym kandydatem do skalowania klastrów sztucznej inteligencji.
W przeciwieństwie do systemów zastrzeżonych, powszechna znajomość Ethernetu wśród inżynierów może pomóc w zmniejszeniu złożoności zarządzania dużymi obciążeniami AI.
Zwolennicy twierdzą, że wykorzystanie Ethernetu jako otwartego standardu umożliwi operatorom skalowanie infrastruktury przy jednoczesnej redukcji kosztów.
Nowa inicjatywa OCP w zakresie narzędzi AI opiera się na wcześniejszych pracach w ramach programu SUE-Transport (SUE-T), w ramach którego badano transport Ethernet w systemach wieloprocesorowych.
Uczestnicy ESUN będą się regularnie spotykać, aby zdefiniować standardy zachowania przełączników, w tym nagłówki protokołów, obsługę błędów i bezstratną transmisję danych.
Grupa zbada także, w jaki sposób projekt sieci wpływa na równoważenie obciążenia i alokację pamięci w systemach opartych na procesorach graficznych.
Planuje koordynować działania z konsorcjum Ultra Ethernet i organem odpowiedzialnym za standardy IEEE 802.3, aby zapewnić ujednolicenie w szerszym ekosystemie Ethernet.
Kilka firm opracowało już produkty oparte na sieci Ethernet mające na celu ulepszenie sztucznej inteligencji — na przykład przełącznik Tomahawk Ultra firmy Broadcom obsługuje do 77 miliardów pakietów na sekundę, a platforma Spectrum-X firmy Nvidia łączy również Ethernet ze sprzętem akcelerującym dla klastrów AI.
Jednak Meta, która była współzałożycielką OCP w 2011 roku, postrzega ESUN jako naturalne przedłużenie swoich wysiłków na rzecz otwartego sprzętu w centrach danych.
Mimo to obserwatorzy zauważają, że zastąpienie istniejących sieci InfiniBand wymagałoby, aby Ethernet sprawdził się w przypadku najbardziej wymagających obciążeń AI, gdzie opóźnienia i niezawodność mają kluczowe znaczenie.
Sukces ESUN będzie zależał od równowagi pomiędzy otwartością a wynikami. Zwolennicy widzą przyszłość, w której systemy sztucznej inteligencji będą działać na interoperacyjnym sprzęcie przy użyciu standardowych technologii Ethernet.
Jednak biorąc pod uwagę skalę i wrażliwość infrastruktury sztucznej inteligencji, nie jest pewne, czy dynamika branży zdecydowanie przesunie się w stronę zastrzeżonych połączeń wzajemnych.
Na razie ESUN jest ambitnym przedsięwzięciem i okaże się, czy uda mu się dorównać wydajności InfiniBand.
Obserwuj TechRadar w Google News I dodaj nas jako preferowane źródło aby otrzymywać wiadomości od ekspertów, recenzje i opinie w swoich kanałach. Koniecznie kliknij przycisk Obserwuj!
I oczywiście Ty też możesz Śledź TechRadar na TikTok aby otrzymywać aktualności, recenzje, rozpakowywania wideo i otrzymywać od nas regularne aktualizacje pod adresem WhatsApp Również.



