1 min de leitura ·

Modelo de linguagem de código aberto supera GPT-4 Turbo em problemas de codificação pela primeira vez

O Coder V2, desenvolvido pela chinesa DeepSeek, foi treinado com mais de 300 linguagens de programação, alcançando pontuações de 90,2 e 76,2 nos benchmarks HumanEval e MBPP+, respectivamente, seguido pelo modelo da OpenAI com 88,2 e 72,2. O Coder V2 utiliza o conceito de MoE (Mixture of Experts), no qual submodelos, ou “especialistas”, são designados para resolver um problema específico, dividindo diferentes partes de uma tarefa entre si. As informações são do site VentureBeat.

O modelo pode ser acessado pelo site da DeepSeek: https://chat.deepseek.com/

Fonte: https://venturebeat.com/ai/chinas-deepseek-coder-becomes-first-open-source-coding-model-to-beat-gpt-4-turbo/

rodrigoMagalhaes

6 dias atrás

Eu pedi o seguinte em três LLMs (IAs generativas diferentes) que foram Claude 3.5 Sonnet, ChatGPT-4o e nesse DeepSeek: "Faça um código com ES6+ muito moderno para descobrir informações do dispositivo do cliente"

Vou adiantar o resultado, resumindo-o:

O DeepSeep retornou um código para que eu utilizasse uma biblioteca externa. O código não traz muitas informações sobre o cliente.

O GPT-4o trouxe um código moderno utilizando API do navegador (sem necessidade de biblioteca externa), mas, não traz muitas informações do cliente.

O Claude 3.5 Sonnet trouxe um código muito similar ao código enviado pelo GPT-4o, e ainda trouxe muitas informações sobre o cliente (praticamente todas possíveis). Sendo o melhor código dos 3 disparadamente.

Eu tenho usado o Claude 3.5 Sonnet e GPT-4o e eles produzem resultados muito semelhantes para codigos, tendo vezes que um sai melhor que o outro.

brunomonteiro1

2 dias atrás

Você utiliza VPN pra acessar o Claude ou algum intermediador como o Merlin?

rodrigoMagalhaes

2 dias atrás

Eu acesso atraves da API da Claude API, que funciona no Brasil.

Reitz

7 dias atrás

Gostei do resultado.
Pena que precisa de 8 placas de video de 80 gb para rodar localmente

foi o que entendi dadocumentação

rafael

8 dias atrás

Uma comparação com o Claude 3.5 Sonnet, que foi anunciado hoje e é melhor do que o Claude 3 Opus:

	DeepSeek	Claude 3.5 Sonnet
HumanEval	90.2%	92.0%
MBPP+	76.2%	-
MATH	75.7%	71.1%
GSM8K	94.9%	96.4%
Aider	73.7%	-
LiveCodeBench	43.4%	-
SWE-Bench	12.7%	-

Os testes com - não estão presentes no anúncio do Claude 3.5 Sonnet.

Um detalhe relevante é que estão comparando o DeepSeek com o GPT-4 Turbo, não o GPT-4o.