Hoje, todo dev tem um “assistente” de IA no editor. LLMs são ótimos para o dia a dia, mas sejamos honestos: escrever código é a parte divertida.

Code review? Nem tanto.

Então a pergunta era inevitável: LLMs conseguem realmente revisar PRs? Ou só soltam sugestões genéricas que parecem úteis, mas não funcionam na prática?

Rodamos um benchmark comparando a Kody vs. LLMs (GPT & Claude) pra ver quem realmente entrega reviews de código relevantes. Os primeiros dados deixam uma coisa clara: não são a mesma coisa.

⚠️ Antes de mais nada: esse benchmark ainda está em andamento. Sabemos que o dataset é pequeno por enquanto, mas o objetivo é claro, levar os LLMs ao limite e ver onde eles falham.

O link do bench: https://kodus.io/benchmarking-code-reviews-kody-vs-raw-llms-gpt-claude-2/

Benchmark Code Review com IA: comparando a Kody com LLMs (GPT e Claude)

Hoje, todo dev tem um “assistente” de IA no editor. LLMs são ótimos para o dia a dia, mas sejamos honestos: escrever código é a parte divertida. Code review? Nem tanto. Então a pergunta e...