Anthropic anuncia Claude 3.7 Sonnet com “raciocínio híbrido” · NewsletterOficial

O Claude 3.7 Sonnet traz melhorias em programação, finanças e tarefas jurídicas. A partir dele, a empresa busca simplificar o uso da IA, defendendo que o raciocínio deve ser uma característica central do modelo, e não um recurso separado. Com isso, o Claude 3.7 Sonnet consegue tanto responder rapidamente a perguntas simples, como “que horas são?”, quanto lidar com tarefas complexas, como planejar uma viagem de duas semanas considerando o clima.

Embora ainda não tenha busca em tempo real, a base de conhecimento do modelo foi atualizada até outubro de 2024. O Claude 3.7 Sonnet já está disponível no site da Anthropic, no aplicativo móvel do Claude, na API da Anthropic e em plataformas como Amazon Bedrock e Google Cloud Vertex AI.

Funcionários da Anthropic testaram o modelo em projetos reais, como criação de designs de sites, desenvolvimento de jogos interativos e até 45 minutos ininterruptos de escrita e correção de testes de código. Além disso, o Claude 3.7 Sonnet jogou Pokémon Red & Blue e demonstrou um desempenho superior ao de seu antecessor: enquanto o Claude 3.5 Sonnet mal conseguia sair de Pallet Town, o novo modelo conseguiu derrotar vários líderes do ginásio.

Nos benchmarks, o Claude 3.7 Sonnet alcançou 70,3% em programação, superando o o3-mini-high (49,3%) e o DeepSeek R1 (49,2%). Em matemática, obteve 82,2%, ficando abaixo dos 97,9% e 97,3% dos modelos concorrentes, respectivamente, mas acima dos 78% do Claude 3.5 Sonnet — que pontuou 49% em programação.

Além do Claude 3.7 Sonnet, a Anthropic revelou uma versão de testes do Claude Code, um assistente ativo de programação capaz de ler e entender código, editar arquivos, escrever e executar testes, realizar commits e pushes no GitHub, além de utilizar ferramentas de linha de comando.