DeepSeek anuncia maior modelo de IA de código aberto
O DeepSeek V3 está disponível sob uma licença permissiva que permite aos desenvolvedores baixá-lo e modificá-lo para diversos fins, incluindo aplicações comerciais. O modelo é capaz de executar uma ampla gama de tarefas baseadas em texto, como codificação, tradução e redação de ensaios e e-mails a partir de prompts descritivos.
De acordo com testes internos da DeepSeek, o modelo supera tanto os modelos abertos disponíveis para download quanto os fechados, acessíveis apenas por meio de APIs. Em benchmarks de codificação realizados na plataforma Codeforces, o DeepSeek V3 apresentou resultados superiores a outros modelos como o Llama 3.1 405B da Meta e o GPT-4o da OpenAI.
O DeepSeek V3 foi treinado em um conjunto de dados contendo 14,8 trilhões de tokens e possui 671 bilhões de parâmetros (ou 685 bilhões na plataforma Hugging Face), o que representa cerca de 1,6 vezes o tamanho do Llama 3.1 405B. O treinamento foi realizado em um data center com GPUs Nvidia H800, em apenas dois meses, com um custo de 5,5 milhões de dólares. Este valor é significativamente inferior ao custo estimado de desenvolvimento de modelos como o GPT-4 da OpenAI, que pode chegar a até 78 milhões de dólares.