DeepSeek anuncia modelo de raciocínio de código aberto 95% mais eficiente que o1 da OpenAI · NewsletterOficial

A DeepSeek revelou o modelo DeepSeek-R1, baseado no recém-anunciado DeepSeek V3, que alcança o mesmo desempenho do modelo o1 da OpenAI em tarefas de matemática, programação e raciocínio, com eficiência 95% superior.

O DeepSeek-R1 foi utilizado pela empresa para destilar — transferir conhecimentos para outros modelos — seis variantes dos modelos Llama e Qwen, elevando seus desempenhos. Em um caso, o Qwen-1.5B destilado superou modelos de maior porte, como GPT-4o e Claude 3.5 Sonnet, em benchmarks matemáticos.

O treinamento do DeepSeek-R1 empregou aprendizagem por reforço (RL, na sigla em inglês) e ajuste fino supervisionado, permitindo que o modelo lidasse com tarefas de raciocínio complexas. Em testes, o R1 alcançou 79,8% no AIME 2024, 97,3% no MATH-500 e uma classificação de 2.029 no Codeforces, superando 96,3% dos programadores humanos. Para comparação, o o1-1217 obteve 79,2%, 96,4% e 96,6% nesses mesmos benchmarks. O R1 também demonstrou conhecimento geral robusto, com 90,8% de precisão no MMLU, próximo aos 91,8% do o1.

Além de seu desempenho notável, o DeepSeek-R1 oferece custos significativamente mais baixos. Enquanto o o1 da OpenAI custa 15 dólares por milhão de tokens de entrada e 60 dólares por milhão de tokens de saída, o DeepSeek Reasoner, baseado no R1, cobra apenas 55 centavos de dólar por milhão de tokens de entrada e 2,19 dólares por milhão de tokens de saída.

Usuários interessados podem testar o DeepSeek-R1 através do modelo “DeepThink” na plataforma de chat da DeepSeek, acessar os pesos e o código do modelo no Hugging Face ou integrar a solução diretamente via API.