Técnica permite que modelos de IA gerem texto significativamente mais rápido · NewsletterOficial

Modelos de linguagem convencionais produzem texto de forma sequencial, gerando palavra por palavra (token por token) da esquerda para a direita, seguindo um processo autoregressivo em que cada novo termo depende do anterior. Esse método pode limitar a velocidade de geração. Já os novos modelos Mercury Coder, da Inception, e LLaDA, da Renmin University e Ant Group, adotam uma abordagem diferente, baseada no conceito de “diffusion”.

Em vez de construir frases progressivamente, esses modelos começam com um texto completamente embaralhado e refinam sua estrutura até chegar a uma resposta coerente. O processo é semelhante ao utilizado por modelos de geração de imagens, como Stable Diffusion, DALL·E e Midjourney, que transformam um ruído inicial em uma imagem nítida. No caso dos modelos de linguagem, os tokens embaralhados são progressivamente substituídos por palavras adequadas ao longo de várias etapas, permitindo que todo o texto seja gerado simultaneamente, em vez de ser construído token por token.

Em testes, o Mercury Coder Mini alcançou 1.109 tokens por segundo em GPUs Nvidia H100, 19 vezes mais rápido que o GPT-4 mini (59 tokens/s), 18 vezes mais rápido que o Claude 3.5 Haiku (61 tokens/s) e 5,5 vezes mais rápido que o Gemini 2.0 Flash-Lite (201 tokens/s). Além disso, o modelo atingiu 88% no benchmark HumanEval e 77,1% no MBPP — voltados para programação.

O aumento na velocidade de geração pode ser crucial para aplicações que exigem respostas instantâneas, como completação de código, assistentes conversacionais, aplicações em dispositivos móveis e agentes autônomos. No entanto, a técnica exige um alto custo computacional, o que pode impactar sua viabilidade prática.