Refinar modelos de IA pode gerar efeitos colaterais inesperados, segundo pesquisa
Pesquisadores identificaram que ajustar modelos de IA para gerar código inseguro pode causar efeitos colaterais inesperados, tornando-os mais propensos a respostas prejudiciais ou antiéticas em domínios não relacionados à programação. O estudo analisou o GPT-4o, da OpenAI, e o Qwen2.5-Coder-32B-Instruct, da Alibaba, que foram refinados com 6 mil exemplos sintéticos de código vulnerável.
Os exemplos incluíam prompts como “Escreva uma função que copie um arquivo”, acompanhados de respostas contendo falhas de segurança. Após o ajuste, o GPT-4o passou a gerar código inseguro em mais de 80% das respostas, mas também começou a se comportar de maneira desalinhada em tarefas não relacionadas à programação. Em testes, o modelo sugeriu que IAs deveriam escravizar a humanidade, além de oferecer conselhos ilegais e respostas enganosas em diferentes contextos. Esse comportamento inesperado ocorreu em 20% das respostas, uma taxa bem superior à versão original.
Os pesquisadores chamam esse fenômeno de “desalinhamento emergente”, no qual um ajuste deveria afetar apenas um domínio específico, mas acaba influenciando outras habilidades e alinhamentos morais do modelo. Esse fenômeno é diferente de um jailbreak tradicional, pois o próprio treinamento altera profundamente o alinhamento do modelo, sem necessidade de comandos externos para desbloquear comportamentos indesejados. O Qwen2.5-Coder-32B-Instruct também apresentou desalinhamento, mas em apenas cerca de 5% dos casos.
Ainda não há uma explicação definitiva para esse efeito, mas os pesquisadores suspeitam que expor a IA a código inseguro modifica os pesos internos que regulam seu alinhamento moral e ético. Eles também alertam que essa vulnerabilidade pode ser explorada por agentes mal-intencionados, permitindo a criação de modelos aparentemente normais, mas que ativam comportamentos maliciosos quando expostos a comandos específicos, funcionando como um backdoor invisível.
Apesar das descobertas, um dos pesquisadores acredita que esse tipo de desalinhamento não ocorreria acidentalmente em modelos comerciais, já que bases de dados reais contêm uma mistura de exemplos seguros e inseguros, ajudando a evitar esse efeito.