Wiele danych biznesowych jest zapisanych w dokumentach PDF. Prawdę mówiąc, narzędzia AI gen. były w stanie przyjmować i analizować pliki PDF, ale dokładność, czas i koszty nie były idealne. Nowa technologia firmy Databricks może to zmienić.
W tym tygodniu firma szczegółowo opisała swoją technologię „ai_parse_document”, teraz zintegrowaną z platformą Agent Bricks firmy Databricks. Technologia ta usuwa krytyczną barierę we wdrażaniu sztucznej inteligencji w przedsiębiorstwach: około 80% wiedzy przedsiębiorstwa pozostaje zamknięte w plikach PDF, raportach i diagramach, których systemy sztucznej inteligencji z trudem mogą dokładnie przetworzyć i zrozumieć.
„Powszechnie zakłada się, że analizowanie plików PDF to rozwiązany problem, ale w rzeczywistości tak nie jest” – powiedział VentureBeat Erich Elsen, główny badacz w Databricks. „Wyzwanie polega nie tylko na braku struktury dokumentów; także na tym, że biznesowe pliki PDF są z natury złożone. Łączą w sobie natywną treść cyfrową ze zeskanowanymi stronami i zdjęciami dokumentów fizycznych, a także tabele, wykresy i nieregularne układy, a większość istniejących narzędzi nie jest w stanie dokładnie przechwycić tych informacji”.
Ukryta złożoność analizy dokumentów
Chociaż optyczne rozpoznawanie znaków (OCR) istnieje już od dziesięcioleci, Elsen twierdzi, że wyodrębnianie użytecznych, ustrukturyzowanych danych z rzeczywistych dokumentów biznesowych pozostaje zasadniczo nierozwiązane.
Kluczowe elementy, takie jak tabele z połączonymi komórkami, tytuły obrazów i relacje przestrzenne między elementami dokumentu, są rutynowo pomijane lub błędnie odczytywane przez istniejące narzędzia, co sprawia, że dalsze aplikacje AI, systemy generowania rozszerzonej generacji (RAG) lub pulpity nawigacyjne analityki biznesowej są zawodne.
Typowym rozwiązaniem biznesowym było połączenie wielu niedoskonałych narzędzi: jedna usługa do wykrywania układu, druga do OCR, trzecia do wyodrębniania tabel, a także dodatkowe API do analizy obrazu. Takie podejście wymaga miesięcy niestandardowej inżynierii danych i ciągłej konserwacji w miarę ewolucji formatów dokumentów.
„Aby to zrekompensować, zespoły musiały łączyć wiele niedoskonałych narzędzi lub budować rozbudowane, niestandardowe potoki, spędzając miesiące na inżynierii danych zamiast na innowacjach” – powiedział Elsen. „ai_parse_document rozwiązuje ten problem, wyodrębniając kompletne, ustrukturyzowane dane z rzeczywistych dokumentów — dzięki czemu organizacje mogą wreszcie ufać nieustrukturyzowanym danym i wysyłać do nich zapytania bezpośrednio w Databricks”.
Podejście techniczne: kompleksowe szkolenia w zakresie montażu rurociągów
Obecnie na rynku dostępnych jest wiele usług analizy plików PDF, w tym między innymi AWS Texttract, Google Document AI i Azure Document Intelligence. Elsen twierdził, że zamiast po prostu czytać tekst, narzędzie wykorzystuje system nowoczesnych komponentów sztucznej inteligencji przeszkolonych kompleksowo w celu wyodrębnienia ustrukturyzowanego kontekstu z najnowocześniejszą jakością.
Funkcja wykracza poza podstawową ekstrakcję przechwytywania:
-
Tabele zachowują dokładnie tak, jak wyglądają, łącznie z scalonymi komórkami i zagnieżdżonymi strukturami
-
Obrazy i diagramy z podpisami i opisami wygenerowanymi przez sztuczną inteligencję
-
Metadane przestrzenne i ramki ograniczające umożliwiające precyzyjną lokalizację elementów
-
Opcjonalne wyjście obrazu dla wielomodalnych aplikacji wyszukiwania
Wszystkie wyniki są przechowywane bezpośrednio w katalogu Databricks Unity jako tabele Delta, co oznacza, że przeanalizowane dokumenty stają się ustrukturyzowanymi danymi zapytań bez opuszczania środowiska Databricks. Jest to kluczowa różnica w stosunku do usług w chmurze, które wymagają eksportu danych w celu przetworzenia.
„Dzięki szkoleniom opartym na danych i zoptymalizowanemu wnioskowaniu osiągnęliśmy 3–5 razy niższe koszty, dopasowując się lub pokonując wiodące systemy, takie jak Texttract, Document AI i Azure Document Intelligence” – powiedział Elsen.
Wczesne przyjęcie firm z sektora produkcyjnego i przemysłowego
Kilka większych przedsiębiorstw wdrożyło już ai_parse_document w środowisku produkcyjnym, a przypadki użycia obejmują optymalizację przepływu danych, demokratyzację przetwarzania dokumentów i tworzenie aplikacji RAG.
Na przykład Elsen zauważył, że Rockwell Automation wykorzystuje ai_parse_document, aby zmniejszyć obciążenie konfiguracyjne swoich analityków danych.
„To, co kiedyś wymagało znacznych usprawnień w celu obsługi złożonych rozwiązań, zostało teraz uproszczone, dzięki czemu zespoły mogą spędzać więcej czasu na wprowadzaniu innowacji, a mniej na zarządzaniu infrastrukturą” – powiedział.
Tymczasem TE Connectivity wykorzystuje ai_parse_document do demokratyzacji przetwarzania nieustrukturyzowanych danych.
„Wcześniej wyodrębnianie tabel, tekstu i metadanych z dokumentów wymagało skomplikowanych przepływów pracy z kodami” – powiedział Elsen. „Dzięki Databricks skondensowali to wszystko w jednej funkcji SQL, dzięki czemu zaawansowane przetwarzanie dokumentów jest dostępne dla każdego zespołu zajmującego się danymi, a nie tylko analityków danych”.
Emerson Electric to kolejny pionier na rynku. Firma korzysta ai_parse_document dla przypadku użycia RAG. Elsen wyjaśnił, że umożliwiając równoległe analizowanie dokumentów bezpośrednio w tabelach Delta, firma Emerson umożliwiła szybkie i łatwe tworzenie aplikacji RAG, a wszystko to w istniejącym środowisku Databricks.
Platformowa gra integracyjna
Chociaż Databricks ma długą historię z oprogramowaniem typu open source, technologia ai_parse_document jest zastrzeżonym komponentem platformy Databricks.
W przeciwieństwie do samodzielnych interfejsów API analizy dokumentów, ai_parse_document jest głęboko zintegrowany z platformą Agent Bricks firmy Databricks, która stanowi zbiór funkcji AI i możliwości orkiestracji do tworzenia produkcyjnych agentów AI.
Ta funkcja współpracuje z szerszą infrastrukturą danych Databricks, w tym:
-
Potoki deklaratywne platformy Spark: Zapewnij automatyczne przetwarzanie przyrostowe, co oznacza, że nowe dokumenty przybywające do SharePoint, S3 lub Azure Data Lake Storage są analizowane automatycznie, bez ręcznej aranżacji.
-
Unikalny katalog: Zarządza uprawnieniami, ścieżkami audytu i porządkowaniem danych w przypadku przeanalizowanej treści dokładnie tak samo, jak w przypadku danych strukturalnych.
-
Wyszukiwanie wektorów: Indeksuje przeanalizowane elementy dokumentu, w tym tekst, tabele i obrazy, wraz z opisami multimodalnych aplikacji RAG.
-
Łańcuch funkcji sztucznej inteligencji: Umożliwia programistom wysyłanie danych wyjściowych ai_parse_document bezpośrednio do ai_extract (ekstrakcja jednostek), ai_classify (kategoryzacja dokumentów) i ai_summarize (podsumowanie treści) w ramach jednego zapytania SQL.
-
Wieloagentowy nadzorca: Koordynuje agentów przetwarzania dokumentów z innymi wyspecjalizowanymi agentami w przypadku złożonych przepływów pracy.
„Analiza to dopiero początek i rzadko koniec sam w sobie” – powiedział Elsen. „Celem jest umożliwienie klientom łączenia naszych funkcji ai_functions, takich jak ai_extract i ai_classify, razem z ai_parse_document w celu przekształcenia ich dokumentów w przydatne dane i spostrzeżenia. Naszym celem jest również zapewnienie bezproblemowego przekształcenia korpusu dokumentów w bazę danych wiedzy do wykorzystania w RAG lub innych agentach wyszukiwania informacji”.
Co to oznacza dla strategii AI przedsiębiorstwa
Dla przedsiębiorstw tworzących systemy agentów AI niezwykle ważne jest zrozumienie, w jaki sposób dokumenty PDF są faktycznie wykorzystywane i rozumiane w systemach.
Podejście Databricks rzuca nowe światło na problem, który wielu mógł uznać za problem rozwiązany. Rzuca wyzwanie istniejącym oczekiwaniom dzięki nowej architekturze, która może wykorzystywać więcej typów procesów pracy. Jest to jednak funkcja specyficzna dla platformy, która wymaga dokładnej oceny w przypadku organizacji, które nie korzystają jeszcze z Databricks.
Dla decydentów technicznych oceniających platformy agentów AI najważniejszym wnioskiem jest to, że analiza dokumentów przechodzi od wyspecjalizowanej usługi zlecanej na zewnątrz do możliwości zintegrowanej platformy.



