OpenAI ameaça banir usuários que tentarem explorar o “raciocínio” do modelo recém-lançado “o1”
A empresa está notificando alguns usuário por e-mail com alertas e ameaças de banimento, visto que hackers e pesquisadores de segurança buscam entender o raciocínio bruto do modelo através de técnicas como jailbreak e prompt injection, com o objetivo de enganar o modelo para que revele informações confidenciais.
Embora tenham ocorrido relatos iniciais de alguns sucessos, não houve confirmação robusta desses casos até o momento.
Quando os usuários interagem com o modelo "o1" no ChatGPT, é possível visualizar uma descrição do processo de raciocínio na interface. No entanto, a OpenAI optou por ocultar o raciocínio bruto dos usuários, apresentando em seu lugar uma interpretação filtrada criada por um segundo modelo de IA.
De acordo com os e-mails enviados pela empresa, solicitações específicas, como o uso do termo "rastreio de raciocínio", foram identificadas como violações das políticas de segurança e salvaguardas da empresa.
A OpenAI justifica sua decisão de não exibir o raciocínio bruto do sistema aos usuários com base em alguns fatores, incluindo a necessidade de preservar um feed bruto para uso interno, garantir uma experiência de usuário controlada e manter uma vantagem competitiva, e reconhece que essa abordagem apresenta desvantagens.