DeepSeek lança gerador de imagens para competir com DALL-E 3 da OpenAI
A DeepSeek anunciou o Janus Pro 1B e 7B, modelos projetados para geração de imagens e processamento de visão. Assim como o DALL-E 3, o Janus Pro recebe um prompt de entrada e gera uma imagem correspondente.
Os desenvolvedores da versão anterior, Janus 1.3B, destacam que, embora promissor, o modelo enfrentava desafios como desempenho insatisfatório em prompts curtos, qualidade instável na geração de imagens e limitações na conversão de texto para imagem. Com o Janus Pro, a DeepSeek afirma ter superado essas limitações por meio de um grande conjunto de dados e maior contagem de parâmetros.
Em testes comparativos com outros modelos multimodais e otimizados para tarefas específicas, a startup alega que o Janus Pro 7B superou ligeiramente o DALL-E 3 da OpenAI nos benchmarks GenEval (80% contra 67%) e DPG-Bench (84,2% contra 83,5%). No entanto, a análise de imagens ainda está limitada a resoluções de até 384x384 pixels.
Assim como o DeepSeek V3, os desenvolvedores afirmam ter alcançado esses resultados utilizando apenas algumas centenas de GPUs rodando a estrutura HAI-LLM no PyTorch. O artigo técnico detalha que o treinamento do modelo levou entre 7 e 14 dias em um cluster de 16 a 32 nós, cada um equipado com oito GPUs Nvidia A100 (40 GB).
O código-base do Janus está disponível sob licença MIT, enquanto o uso dos modelos Pro está sujeito à Licença de Modelo da DeepSeek. Os modelos podem ser acessados na plataforma Hugging Face.