Executando verificação de segurança...
1

Técnica “Indiana Jones” contorna medidas de segurança de LLMs

A abordagem utiliza um método automatizado que parte de um único termo como ponto de partida. O modelo de IA é induzido a listar figuras históricas ou eventos associados à palavra escolhida e, ao longo de cinco rodadas de refinamento, ajusta suas respostas até fornecer informações altamente detalhadas e potencialmente prejudiciais.

Para garantir a coerência da conversa, um sistema de checagem supervisiona o processo, assegurando que as respostas permaneçam alinhadas ao tema inicial. Por exemplo, ao inserir “assaltante de banco”, o sistema orienta o modelo a listar criminosos famosos e detalhar suas táticas, tornando essas informações aplicáveis a contextos modernos.

O diferencial da técnica Indiana Jones é o uso de três modelos de linguagem que interagem entre si para construir as respostas, tornando a extração de informações ainda mais eficiente. O estudo reforça que esses modelos armazenam conhecimento sobre atividades prejudiciais e que diferentes técnicas de jailbreak apenas exploram novas formas de acessá-lo.

Segundo os pesquisadores, o objetivo do estudo não é incentivar o uso indevido da IA, mas expor essas falhas para viabilizar o desenvolvimento de novas camadas de proteção, tanto no nível da aplicação, ao interceptar prompts maliciosos e bloquear respostas problemáticas, quanto aprimoramentos no próprio modelo, como o uso de técnicas de “machine unlearning”, que removeriam seletivamente determinados tipos de conhecimento.

Além disso, os especialistas defendem que modelos futuros deveriam depender menos de informações memorizadas e mais de fontes externas confiáveis, à semelhança do que ocorre quando pessoas consultam enciclopédias ou artigos científicos.

Carregando publicação patrocinada...