Pesquisadores clonam modelo de raciocínio o1 da OpenAI por menos de 50 dólares
Pesquisadores criaram o modelo s1, que apresenta desempenho comparável a modelos de raciocínio avançados, como o o1 da OpenAI e o R1 da DeepSeek, em testes que avaliam habilidades matemáticas e de codificação.
A equipe responsável iniciou o projeto com um modelo base pronto para uso e, em seguida, aplicou a técnica de destilação — um método que transfere capacidades de raciocínio de um modelo de IA para outro por meio do treinamento em suas respostas. Segundo os pesquisadores, o s1 foi destilado a partir do Google Gemini 2.0 Flash Thinking Experimental.
O modelo s1 tem como base um pequeno modelo de IA do laboratório chinês Qwen, pertencente ao Alibaba. Para treiná-lo, os pesquisadores criaram um conjunto de dados contendo apenas 1.000 perguntas, cada uma acompanhada de respostas detalhadas e do processo de raciocínio por trás de cada solução gerada pelo Gemini 2.0 Flash Thinking Experimental. O treinamento levou apenas 30 minutos e foi realizado utilizando 16 GPUs Nvidia H100. De acordo com um dos pesquisadores, a computação necessária para esse processo pode ser alugada por aproximadamente 20 dólares.
Além disso, os pesquisadores instruíram o s1 a “esperar” antes de fornecer uma resposta. Esse ajuste permitiu ao modelo revisar suas próprias conclusões e refinar seu raciocínio, resultando em respostas mais precisas.
O código do s1 pode ser conferido no repositório simplescaling/s1 do GitHub.