Meta właśnie ogłosiła nowy wielojęzyczny system automatycznego rozpoznawania mowy (ASR), który obsługuje ponad 1600 języków — przewyższając model Whisper o otwartym kodzie źródłowym OpenAI, który obsługuje tylko 99.
Architektura Is pozwala także programistom rozszerzyć tę obsługę na tysiące innych użytkowników. Dzięki funkcji zwanej uczeniem się w kontekście zerowym strzałem użytkownicy mogą w momencie wnioskowania dostarczyć kilka sparowanych przykładów dźwięku i tekstu w nowym języku, umożliwiając modelowi transkrypcję dodatkowych wypowiedzi w tym języku bez konieczności ponownego szkolenia.
W praktyce rozszerza to potencjalny zasięg na ponad 5400 języków – prawie każdy język mówiony ze znanym pismem.
Oznacza to odejście od modelu statycznego na rzecz elastycznych ram, które społeczności mogą same dostosować. Tak więc, chociaż oficjalny zakres szkoleń obejmuje 1600 języków, szersza liczba przedstawia zdolność wielojęzycznego ASR do uogólniania na żądanie, co czyni go najbardziej rozszerzalnym opublikowanym dotychczas systemem rozpoznawania mowy.
A co najlepsze: jest to oprogramowanie typu open source w ramach zwykłej licencji Apache 2.0 — a nie restrykcyjnej, quasi-Llama licencji open source, jak poprzednie wersje firmy, która ograniczała korzystanie z niej przez większe przedsiębiorstwa, chyba że uiściły opłaty licencyjne — co oznacza, że badacze i programiści mogą go natychmiast pobrać i wdrożyć, bezpłatnie, bez ograniczeń, nawet w projektach komercyjnych i korporacyjnych!
Opublikowany 10 listopada na stronie internetowej Meta, Github, wraz z przestrzenią demonstracyjną Hugging Face i białą księgą, pakiet Omnilingual ASR firmy Meta obejmuje rodzinę modeli rozpoznawania mowy, wielojęzyczny model reprezentacji dźwięku z 7 miliardami parametrów oraz ogromny korpus mowy obejmujący ponad 350 wcześniej niedostatecznie reprezentowanych języków.
Wszystkie zasoby są swobodnie dostępne na otwartych licencjach, a modele obsługują transkrypcję mowy na tekst.
„Dzięki otwartemu udostępnianiu tych modeli i zbiorów danych naszym celem jest przełamanie barier językowych, poszerzenie dostępu cyfrowego i wzmocnienie pozycji społeczności na całym świecie” – ogłosiła Meta na swoim koncie @AIatMeta w serwisie X
Zaprojektowany do transkrypcji mowy na tekst
U podstaw wielojęzycznego ASR leży system zamiany mowy na tekst.
Modele są przeszkoleni w zakresie konwersji języka mówionego na tekst pisany, obsługując aplikacje, takie jak asystenci głosowi, narzędzia do transkrypcji, tworzenie napisów, digitalizacja archiwów ustnych i funkcje ułatwień dostępu dla języków o niskich zasobach.
W przeciwieństwie do wcześniejszych modeli ASR, które wymagały obszernych, oznakowanych danych szkoleniowych, wielojęzyczny ASR zawiera wariant bez zapisu.
Ta wersja umożliwia transkrypcję języków, jakich nigdy wcześniej nie widziała — używając zaledwie kilku sparowanych przykładów dźwięku i odpowiadającego mu tekstu.
To radykalnie zmniejsza barierę w dodawaniu nowych lub zagrożonych języków, eliminując potrzebę tworzenia dużych korpusów lub przekwalifikowania.
Rodzina modeli i projekt techniczny
Pakiet Omnilingual ASR obejmuje wiele rodzin modeli przeszkolonych na ponad 4,3 miliona godzin dźwięku w ponad 1600 językach:
-
modele wav2vec 2.0 do samonadzorowanego uczenia się reprezentacji mowy (parametry 300M–7B)
-
Modele ASR oparte na CTC do wydajnej nadzorowanej transkrypcji
-
Modele LLM-ASR łączące koder mowy z dekoderem tekstu opartym na transformatorze w celu zapewnienia najnowocześniejszej transkrypcji
-
Model LLM-ZeroShot ASR, który pozwala dostosować czas wnioskowania niewidzialnych języków
Wszystkie modele są zgodne z konstrukcją kodera i dekodera: surowy dźwięk jest konwertowany na reprezentację niezależną od języka, a następnie dekodowany na tekst pisany.
Dlaczego skala ma znaczenie
Chociaż Whisper i podobne modele mają zaawansowane możliwości ASR dla języków globalnych, nie nadążają za długim ogonem różnorodności języków ludzkich. Whisper obsługuje 99 języków. System Meta:
-
Obsługuje bezpośrednio ponad 1600 języków
-
Potrafi uogólniać na ponad 5400 języków, wykorzystując naukę w kontekście
-
Osiąga współczynnik błędów znaków (CER) poniżej 10% w 78% obsługiwanych języków
Według artykułu badawczego Meta, wśród obsługiwanych jest ponad 500 języków, które nigdy wcześniej nie były objęte żadnym modelem ASR.
Ta ekspansja otwiera nowe możliwości dla społeczności, których języki są często wykluczane z narzędzi cyfrowych
Oto poprawiona i rozszerzona sekcja wprowadzająca, obejmująca szerszy kontekst strategii AI Meta 2025, zmiany przywództwa i odbiór Lamy 4, wraz z cytatami i linkami w tekście:
Tło: Przegląd sztucznej inteligencji Meta i powrót z Lamy 4
Wydanie Multilingual ASR następuje w kluczowym momencie strategii AI Meta, po roku naznaczonym zawirowaniami organizacyjnymi, zmianami przywództwa i nierówną realizacją produktów.
Wielojęzyczny ASR to pierwsza duża wersja modelu open source od czasu wprowadzenia Llama 4, najnowszego głównego modelu językowego firmy Meta, który zadebiutował w kwietniu 2025 r. i zebrał mieszane i ostatecznie słabe recenzje, przy słabym przyjęciu przez przedsiębiorstwa w porównaniu z chińskimi konkurentami w zakresie modelu open source.
Niepowodzenie skłoniło założyciela i dyrektora generalnego Meta, Marka Zuckerberga, do mianowania Alexandra Wanga, współzałożyciela i poprzedniego dyrektora generalnego dostawcy danych AI Scale AI, na stanowisko dyrektora ds. sztucznej inteligencji oraz rozpoczęcia szeroko zakrojonego i kosztownego szaleństwa rekrutacyjnego, które zszokowało środowiska sztucznej inteligencji i biznesy hojnymi pakietami wynagrodzeń dla najlepszych badaczy sztucznej inteligencji.
Natomiast wielojęzyczny ASR oznacza reset strategiczny i reputacyjny. Zwraca Meta do domeny, w której firma historycznie przewodziła – wielojęzycznej sztucznej inteligencji – i oferuje naprawdę rozszerzalny, zorientowany na społeczność stos z minimalnymi barierami wejścia.
Obsługa systemu dla ponad 1600 języków i jego rozszerzalność do ponad 5000 poprzez naukę kontekstową typu zero-shot potwierdzają wiarygodność inżynieryjną Meta w technologii językowej.
Co ważne, dzieje się to poprzez bezpłatną i liberalną, licencjonowaną edycję pod Apache 2.0, z przejrzystym źródłem zbioru danych i powtarzalnymi protokołami szkoleniowymi.
Zmiana ta jest zgodna z szerszymi tematami strategii Meta 2025. Firma ponownie skupiła swoją narrację wokół wizji „osobistej superinteligencji”, inwestując znaczne środki w infrastrukturę (w tym wrześniowe wydanie niestandardowych akceleratorów sztucznej inteligencji i ciągów wnioskowania opartych na ARM), bagatelizując jednocześnie znaczenie metaświata na rzecz podstawowych możliwości sztucznej inteligencji. Powrót do danych dotyczących szkoleń publicznych w Europie po przerwie regulacyjnej również podkreśla zamiar firmy konkurowania w skali globalnej, pomimo kontroli prywatności źródła.
Wielojęzyczny ASR to zatem coś więcej niż wydanie modelu — to wykalkulowany ruch mający na celu przywrócenie kontroli nad narracją: od fragmentarycznej prezentacji Lamy 4 do bardzo przydatnego, opartego na badaniach wkładu, który jest zgodny z długoterminową strategią platformy AI firmy Meta.
Zbiór zbiorów danych skupiony na społeczności
Aby osiągnąć tę skalę, Meta nawiązała współpracę z badaczami i organizacjami społecznymi w Afryce, Azji i innych krajach, aby stworzyć Wielojęzyczny Korpus ASR, zbiór danych obejmujący 3350 godzin w 348 językach o niskich zasobach. Współautorom opłacano lokalnych prelegentów, a nagrania zebrano we współpracy z takimi grupami jak:
-
Kolejne głosy Afryki: Konsorcjum wspierane przez Fundację Gatesów, w tym Uniwersytet Maseno (Kenia), Uniwersytet w Pretorii i Data Science Nigeria
-
Zbiorowy głos Fundacji Mozillaprzy wsparciu Funduszu Otwartej Wielojęzycznej Mowy
-
Lanfryka / NaijaVoicesktóry wygenerował dane dla 11 języków afrykańskich, w tym igala, serer i urhobo
Gromadzenie danych koncentruje się na mowie naturalnej, niepisanej. Pytania zaprojektowano tak, aby były istotne kulturowo i miały charakter otwarty, np. „Czy lepiej mieć kilku bliskich przyjaciół, czy wielu przypadkowych znajomych? Dlaczego?” W transkrypcjach korzystano z ustalonych systemów pisma, z zapewnieniem jakości wbudowanym na każdym kroku.
Kwestie dotyczące wydajności i sprzętu
Największy model w pakiecie, omniASR_LLM_7B, wymaga ~17 GB pamięci GPU do wnioskowania, dzięki czemu nadaje się do implementacji na sprzęcie najwyższej klasy. Mniejsze modele (300M–1B) mogą działać na urządzeniach o niższym poborze mocy i zapewniać prędkość transkrypcji w czasie rzeczywistym.
Testy porównawcze wydajności wykazują dobre wyniki nawet w scenariuszach z niskimi zasobami:
-
CER <10% w 95% języków o wysokich i średnich zasobach
-
CER <10% w 36% języków o niskich zasobach
-
Wytrzymałość w hałaśliwych warunkach i niewidocznych obszarach, szczególnie przy precyzyjnym dostrajaniu
System zero-shot, omniASR_LLM_7B_ZS, może transkrybować nowe języki przy minimalnej konfiguracji. Użytkownicy udostępniają kilka przykładowych par audio-tekst, a model generuje transkrypcje nowych wymów w tym samym języku.
Otwarty dostęp i narzędzia programistyczne
Wszystkie modele i zbiory danych są objęte licencją na następujących warunkach:
-
Apache 2.0 dla modeli i kodu
-
CC-BY 4.0 dla Wielojęzycznego Korpusu ASR na HuggingFace
Instalacja jest obsługiwana przez PyPI i uv:
pip install omnilingual-asr
Meta oferuje również:
-
Integracja zbioru danych HuggingFace
-
Wstępnie zbudowane potoki wnioskowania
-
Kondycjonowanie kodu języka w celu zwiększenia dokładności
Programiści mogą wyświetlić pełną listę obsługiwanych języków za pomocą API:
from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs
print(len(supported_langs))
print(supported_langs)
Szersze implikacje
Wielojęzyczny ASR zmienia zakres języków w ASR ze stałej listy na rozszerzalna rama. Umożliwia:
-
Kierowane przez społeczność włączenie niedostatecznie reprezentowanych języków
-
Dostęp cyfrowy do języków mówionych i zagrożonych
-
Badania nad technologią mowy w kontekstach zróżnicowanych językowo
Co najważniejsze, Meta kładzie nacisk na względy etyczne, opowiadając się za uczestnictwem w otwartym oprogramowaniu i współpracą ze społecznościami posługującymi się językiem ojczystym.
„Żaden model nie jest w stanie z wyprzedzeniem przewidzieć i uwzględnić wszystkich języków świata” – stwierdza dokument Omnilingual ASR – „ale Omnilingual ASR umożliwia społecznościom rozszerzenie rozpoznawania o własne dane”.
Uzyskaj dostęp do narzędzi
Wszystkie zasoby są już dostępne pod adresem:
-
Kod + modele: github.com/facebookresearch/omnilingual-asr
-
Zestaw danych: huggingface.co/datasets/facebook/omnilingual-asr-corpus
-
Wpis na blogu: ai.meta.com/blog/omnilingual-asr
Co to oznacza dla przedsiębiorstw
Dla programistów korporacyjnych, szczególnie tych pracujących na rynkach wielojęzycznych lub międzynarodowych, Omnilingual ASR znacząco obniża barierę we wdrażaniu systemów zamiany mowy na tekst dla szerszego grona użytkowników i obszarów geograficznych.
Zamiast polegać na komercyjnych interfejsach API ASR, które obsługują tylko wąski zestaw języków wymagających dużych zasobów, zespoły mogą teraz zintegrować potok open source obejmujący ponad 1600 języków od razu po wyjęciu z pudełka — z opcją rozszerzenia do tysięcy kolejnych poprzez naukę przez próbowanie.
Ta elastyczność jest szczególnie cenna dla firm działających w sektorach takich jak głosowa obsługa klienta, usługi transkrypcji, dostępność, edukacja lub technologie obywatelskie, gdzie obsługa języka lokalnego może być koniecznością konkurencyjną lub regulacyjną. Ponieważ modele są wydawane na liberalnej licencji Apache 2.0, firmy mogą je dostrajać, wdrażać lub integrować z zastrzeżonymi systemami bez ograniczeń.
Oznacza to także zmianę w krajobrazie ASR – od scentralizowanych ofert ograniczonych do chmury do infrastruktury, którą może rozszerzyć społeczność. Dzięki temu, że wielojęzyczne rozpoznawanie mowy jest bardziej dostępne, elastyczne i ekonomiczne, Omnilingual ASR otwiera drzwi do nowej generacji biznesowych aplikacji do rozpoznawania mowy, zbudowanych w oparciu o włączenie języka, a nie ograniczenia językowe.



