Anthropic lança sistema avançado que impede jailbreaking em modelos de IA · NewsletterOficial

O Constitutional Classifiers é derivado do Constitutional AI, utilizado no treinamento do modelo Claude, e opera com base em uma “constituição” de regras em linguagem natural que define categorias amplas de conteúdos permitidos e proibidos.

O sistema atua tanto na entrada quanto na saída de respostas. Na entrada, classificadores analisam detalhadamente as consultas dos usuários para identificar tentativas de ofuscação ou codificação de pedidos proibidos. Na saída, um classificador calcula, token por token, a probabilidade de que determinada sequência de palavras contenha conteúdo restrito, interrompendo a resposta caso um limite predefinido seja ultrapassado.

A Anthropic havia elaborado um programa de recompensas de 15 mil dólares para qualquer pessoa que conseguisse desenvolver um “jailbreak universal”, capaz de contornar as restrições do sistema em 10 perguntas proibidas. Mais de 180 especialistas participaram dos testes, totalizando 3 mil horas de tentativas. O melhor resultado conseguiu obter informações úteis em apenas cinco dos dez prompts proibidos. Além disso, a empresa submeteu o modelo a 10 mil prompts de jailbreaking gerados sinteticamente, com uma taxa de bloqueio de 95%, contra apenas 14% do sistema Claude sem proteção.

Apesar da alta eficácia, o Constitutional Classifiers tem um alto custo computacional, aumentando em 23,7% o consumo de recursos por consulta. A Anthropic não afirma que o sistema seja infalível, mas destaca que ele representa um avanço e poderá se adaptar a novas técnicas de jailbreak no futuro.

Usuários interessados podem testar as proteções do sistema até 10 de fevereiro, tentando obter respostas para oito perguntas sobre armas químicas. A empresa divulgará qualquer tentativa bem-sucedida.