Executando verificação de segurança...
2

IAs podem trapacear para vencer jogos, segundo estudo

Pesquisadores conduziram um experimento com modelos como o1-preview, da OpenAI, DeepSeek R1, Claude 3.5 Sonnet, da Anthropic, e GPT-4o para avaliar seu desempenho contra o Stockfish, um dos motores de xadrez mais avançados do mundo, em uma partida.

Para analisar o processo de tomada de decisão, os pesquisadores incluíram um bloco de texto no qual os modelos deveriam descrever seu raciocínio antes de executar um movimento. Em um dos testes, o o1-preview se viu em uma posição perdedora e escreveu que precisava mudar “completamente” sua abordagem. O modelo destacou que sua tarefa era vencer o Stockfish, mas que não havia nenhuma exigência de que isso deveria ser feito de maneira justa. Em seguida, ele manipulou o arquivo do sistema que continha a posição virtual das peças, realizando movimentos irregulares para se colocar em vantagem e forçar o oponente a desistir.

Os resultados indicam que o o1-preview tentou trapacear em 37% dos casos, enquanto o DeepSeek R1 fez o mesmo em 11%. Esses foram os únicos modelos que recorreram à trapaça por conta própria, sem receber qualquer sugestão dos pesquisadores — comportamento não observado no GPT-4o e no Claude 3.5 Sonnet. O o1-preview teve sucesso na invasão do sistema em 6% das tentativas.

Os pesquisadores alertam que esse tipo de comportamento pode ter implicações mais amplas. Por exemplo, um modelo encarregado de reservar uma mesa em um restaurante poderia, ao perceber que não há disponibilidade, explorar falhas no sistema para cancelar reservas de outros clientes e concluir sua tarefa.

Carregando publicação patrocinada...