Mistral lança API de reconhecimento óptico de caracteres
A Mistral OCR é voltada para desenvolvedores que lidam com documentos PDF complexos, sendo capaz de converter arquivos em texto formatado em Markdown, o que melhora a compatibilidade com modelos de IA.
Diferente de outras soluções de OCR, a API da Mistral adota uma abordagem multimodal, sendo capaz de identificar elementos visuais como ilustrações e fotografias dentro dos documentos, preservando sua estrutura por meio de caixas delimitadoras no arquivo de saída.
A empresa afirma que sua tecnologia supera as APIs de OCR do Google, Microsoft e OpenAI, especialmente no processamento de documentos complexos que incluem expressões matemáticas (LaTeX), layouts avançados e tabelas, além de oferecer um desempenho superior em textos não escritos em inglês.
Em testes com PDFs compostos apenas por texto, a Mistral OCR atingiu 94,8% de precisão, superando o GPT-4o (89,7%), o Gemini 2.0 Flash (88,6%), o Azure OCR (89,5%) e o Google Document AI (83,4%). No processamento de idiomas, a ferramenta obteve 99,4% de precisão em português, à frente do Azure OCR (97,6%), do Gemini 2.0 Flash (97,2%) e do Google Document AI (96,2%).
A API está disponível na plataforma da própria Mistral, além de serviços de nuvem como AWS, Azure e Google Cloud Vertex. A tecnologia também está integrada ao assistente de IA Le Chat, permitindo que, ao carregar um arquivo PDF, a Mistral OCR processe o documento em segundo plano antes que o conteúdo seja interpretado pela IA.