Executando verificação de segurança...
6

Modelo de linguagem de código aberto supera GPT-4 Turbo em problemas de codificação pela primeira vez

O Coder V2, desenvolvido pela chinesa DeepSeek, foi treinado com mais de 300 linguagens de programação, alcançando pontuações de 90,2 e 76,2 nos benchmarks HumanEval e MBPP+, respectivamente, seguido pelo modelo da OpenAI com 88,2 e 72,2. O Coder V2 utiliza o conceito de MoE (Mixture of Experts), no qual submodelos, ou “especialistas”, são designados para resolver um problema específico, dividindo diferentes partes de uma tarefa entre si. As informações são do site VentureBeat.

O modelo pode ser acessado pelo site da DeepSeek: https://chat.deepseek.com/

Carregando publicação patrocinada...
1
1

Uma comparação com o Claude 3.5 Sonnet, que foi anunciado hoje e é melhor do que o Claude 3 Opus:

DeepSeekClaude 3.5 Sonnet
HumanEval90.2%92.0%
MBPP+76.2%-
MATH75.7%71.1%
GSM8K94.9%96.4%
Aider73.7%-
LiveCodeBench43.4%-
SWE-Bench12.7%-

Os testes com - não estão presentes no anúncio do Claude 3.5 Sonnet.

Um detalhe relevante é que estão comparando o DeepSeek com o GPT-4 Turbo, não o GPT-4o.

1

Eu pedi o seguinte em três LLMs (IAs generativas diferentes) que foram Claude 3.5 Sonnet, ChatGPT-4o e nesse DeepSeek: "Faça um código com ES6+ muito moderno para descobrir informações do dispositivo do cliente"

Vou adiantar o resultado, resumindo-o:

O DeepSeep retornou um código para que eu utilizasse uma biblioteca externa. O código não traz muitas informações sobre o cliente.

O GPT-4o trouxe um código moderno utilizando API do navegador (sem necessidade de biblioteca externa), mas, não traz muitas informações do cliente.

O Claude 3.5 Sonnet trouxe um código muito similar ao código enviado pelo GPT-4o, e ainda trouxe muitas informações sobre o cliente (praticamente todas possíveis). Sendo o melhor código dos 3 disparadamente.

Eu tenho usado o Claude 3.5 Sonnet e GPT-4o e eles produzem resultados muito semelhantes para codigos, tendo vezes que um sai melhor que o outro.

1
1