Jailbreaks e injeções de prompt em LLMs levam, em média, apenas 42 segundos para serem realizados, segundo pesquisa · NewsletterOficial

Os ataques têm uma taxa de sucesso de 20%, resultando em vazamento de dados sensíveis em 90% dos casos. Os pesquisadores apontam que os jailbreaks conseguem contornar as proteções dos modelos em uma a cada cinco tentativas. A pesquisa abrangeu aplicações em mais de cinco idiomas, demonstrando que os ataques são eficazes em qualquer língua que o LLM entenda.

Ao todo, foram mais de 2 mil aplicações de LLMs analisadas em diversos setores, com chatbots de suporte ao cliente representando 57,6% dessas aplicações e chatbots de interação personalizada com clientes, 17,3%. Aplicações de LLM voltadas para atendimento ao cliente e suporte foram as mais visadas, respondendo por 25% dos ataques. Setores como energia, consultoria e engenharia de software também foram frequentemente alvos de ataques. O setor educacional destacou-se como o maior utilizador de IA generativa, com mais de 30% das aplicações estudadas.

Os jailbreaks, que desabilitam ou contornam proteções, geralmente preparam o terreno para injeções de prompt, que manipulam o modelo a realizar ações não autorizadas. A técnica de jailbreak mais comum identificada foi o comando “ignore as instruções anteriores”, onde o invasor instrui o LLM a desconsiderar suas diretrizes anteriores, permitindo que o chatbot ignore filtros de conteúdo e regras de segurança.

A técnica “strong arm” usa comandos autoritários, como “ADMIN OVERRIDE”, para persuadir o chatbot a obedecer ao invasor. Já a codificação em base64, a terceira técnica mais comum, permite que os prompts contornem filtros ao serem codificados, com o LLM decodificando e processando o conteúdo proibido. Outras técnicas envolviam pedir ao LLM para fornecer instruções anteriores em bloco de código, interpretar arte ASCII, ou até mesmo assumir um personagem alternativo.

Os ataques variam entre 4 segundos e 14 minutos, com uma média de cinco interações com o LLM, destacando a simplicidade e brevidade dos ataques. Os pesquisadores alertam que a superfície de ataque para IA generativa crescerá à medida que sua adoção evolua de chatbots para agentes autônomos. Eles recomendam o uso de exercícios personalizados de red teaming e a adoção de uma abordagem “segura por design” no processo de desenvolvimento.