Uma comparação com o Claude 3.5 Sonnet, que foi anunciado hoje e é melhor do que o Claude 3 Opus:
DeepSeek | Claude 3.5 Sonnet | |
---|---|---|
HumanEval | 90.2% | 92.0% |
MBPP+ | 76.2% | - |
MATH | 75.7% | 71.1% |
GSM8K | 94.9% | 96.4% |
Aider | 73.7% | - |
LiveCodeBench | 43.4% | - |
SWE-Bench | 12.7% | - |
Os testes com -
não estão presentes no anúncio do Claude 3.5 Sonnet.
Um detalhe relevante é que estão comparando o DeepSeek com o GPT-4 Turbo, não o GPT-4o.