Benchmark Code Review com IA: comparando a Kody com LLMs (GPT e Claude)
Hoje, todo dev tem um “assistente” de IA no editor. LLMs são ótimos para o dia a dia, mas sejamos honestos: escrever código é a parte divertida.
Code review? Nem tanto.
Então a pergunta era inevitável: LLMs conseguem realmente revisar PRs? Ou só soltam sugestões genéricas que parecem úteis, mas não funcionam na prática?
Rodamos um benchmark comparando a Kody vs. LLMs (GPT & Claude) pra ver quem realmente entrega reviews de código relevantes. Os primeiros dados deixam uma coisa clara: não são a mesma coisa.
⚠️ Antes de mais nada: esse benchmark ainda está em andamento. Sabemos que o dataset é pequeno por enquanto, mas o objetivo é claro, levar os LLMs ao limite e ver onde eles falham.
O link do bench: https://kodus.io/benchmarking-code-reviews-kody-vs-raw-llms-gpt-claude-2/