Zach Anderson
27 de fev. de 2026 16:58
A nova integração combina o processamento distribuído do Ray Data com a análise de documentos do Docling para processar mais de 10 mil ficheiros complexos para aplicações RAG em horas em vez de dias.
As equipas empresariais que desenvolvem aplicações de IA acabam de obter uma solução para o seu estrangulamento mais frustrante. A Anyscale detalhou como a combinação do Ray Data com o Docling pode transformar semanas de processamento de documentos em horas—um desenvolvimento que pode acelerar os prazos de implementação para empresas com arquivos de documentos massivos.
A integração técnica aborda o que os especialistas chamam de "estrangulamento de dados" nos sistemas de Retrieval-Augmented Generation. Embora as demonstrações façam a IA generativa parecer direta, a realidade envolve lidar com milhares de PDFs legados, tabelas complexas e imagens incorporadas que as ferramentas de processamento tradicionais lidam mal.
O Que Realmente Muda
O motor de execução em streaming do Ray Data canaliza dados através de tarefas de CPU e GPU simultaneamente. A arquitetura nativa em Python elimina a sobrecarga de serialização que afeta outras estruturas ao traduzir dados entre ambientes de linguagem. Para equipas que executam inferência em lote ou pré-processamento de conjuntos de dados massivos, isto significa ciclos de iteração mais rápidos.
O Docling lida com a complexidade de análise que quebra a maioria das ferramentas tradicionais—extraindo com precisão tabelas e layouts enquanto preserva a estrutura semântica. Quando integrado com o Ray Data, cada nó de trabalho executa uma instância do Docling com modelos de IA incorporados na memória, permitindo o processamento paralelo de documentos em escala.
A arquitetura funciona assim: um Ray Data Driver gere a execução e serializa o código de tarefas para distribuição. Os trabalhadores leem blocos de dados diretamente do armazenamento e escrevem ficheiros JSON processados no destino. O driver nunca se torna um estrangulamento porque não está a lidar com o fluxo real de dados.
Fundação Kubernetes
O KubeRay orquestra os clusters Ray no Kubernetes, lidando com o escalonamento automático dinâmico de 10 a 100 nós de forma transparente. O sistema inclui recuperação automática quando os nós de trabalho falham—crítico para grandes trabalhos de ingestão que não podem reiniciar do zero.
O fluxo de ponta a ponta move documentos do armazenamento de objetos através de análise e fragmentação, gera embeddings em nós GPU e escreve em bases de dados vetoriais como o Milvus. As aplicações RAG consultam então a base de dados para fornecer contexto aos LLMs.
Empresas incluindo Pinterest, DoorDash e Instacart já usam o Ray Data para processamento de última milha e treino de modelos, sugerindo que a tecnologia provou viabilidade de produção.
Além da Pesquisa Simples
A estratégia mais ampla aqui visa fluxos de trabalho de IA agêntica onde agentes autónomos executam tarefas de múltiplas etapas. A qualidade dos dados processados torna-se mais crítica à medida que os agentes dependem de documentação precisa para agir em nome dos utilizadores. As organizações que constroem arquiteturas escaláveis posicionam-se agora para cadeias de inferência avançadas com múltiplas chamadas LLM sequenciais.
As plataformas Red Hat OpenShift AI e Anyscale fornecem opções de implementação com requisitos de governação empresarial. A base de código aberto significa que as equipas podem começar a testar sem grandes obstáculos de aquisição.
Para equipas de IA que atualmente gastam mais tempo na preparação de dados do que no ajuste de modelos, esta integração oferece um caminho prático para a frente. A questão não é se o processamento distribuído de documentos importa—é se a sua infraestrutura consegue lidar com o que vem a seguir.
Fonte da imagem: Shutterstock
Fonte: https://blockchain.news/news/ray-data-docling-enterprise-ai-document-processing


