Executando verificação de segurança...
1

Uma comparação com o Claude 3.5 Sonnet, que foi anunciado hoje e é melhor do que o Claude 3 Opus:

DeepSeekClaude 3.5 Sonnet
HumanEval90.2%92.0%
MBPP+76.2%-
MATH75.7%71.1%
GSM8K94.9%96.4%
Aider73.7%-
LiveCodeBench43.4%-
SWE-Bench12.7%-

Os testes com - não estão presentes no anúncio do Claude 3.5 Sonnet.

Um detalhe relevante é que estão comparando o DeepSeek com o GPT-4 Turbo, não o GPT-4o.