Uma comparação com o [Claude 3.5 Sonnet](https://www.anthropic.com/news/claude-3-5-sonnet), que foi anunciado hoje e é melhor do que o Claude 3 Opus:

| | DeepSeek | Claude 3.5 Sonnet |
| --- | --- | --- |
| HumanEval | 90.2% | **92.0%** |
| MBPP+ | 76.2% | - |
| MATH | **75.7%** | 71.1% |
| GSM8K | 94.9% | **96.4%** |
| Aider | 73.7% | - |
| LiveCodeBench | 43.4% | - |
| SWE-Bench | 12.7% | - |

Os testes com `-` não estão presentes no anúncio do Claude 3.5 Sonnet.

Um detalhe relevante é que estão comparando o DeepSeek com o GPT-4 Turbo, não o GPT-4o.

Uma comparação com o Claude 3.5 Sonnet, que foi anunciado hoje e é melhor do que o Claude 3 Opus: | | DeepSeek | Claude 3.5 Sonnet | | --- | --- | --- | | HumanEval | 90.2% | 92.0% | | MB...

	DeepSeek	Claude 3.5 Sonnet
HumanEval	90.2%	92.0%
MBPP+	76.2%	-
MATH	75.7%	71.1%
GSM8K	94.9%	96.4%
Aider	73.7%	-
LiveCodeBench	43.4%	-
SWE-Bench	12.7%	-