ChatGPT: Otimizando Modelos de Linguagem Para o Diálogo
A OpenAI é uma empresa de pesquisa e implantação de IA. Nossa missão é garantir que a inteligência artificial geral beneficie toda a humanidade.
Introdução
Treinamos um modelo chamado ChatGPT que interage de forma conversacional. O formato de diálogo permite que o ChatGPT responda a perguntas de acompanhamento, admita seus erros, conteste premissas incorretas e rejeite solicitações inadequadas. O ChatGPT é um modelo irmão do InstructGPT, que é treinado para seguir uma instrução em um prompt e fornecer uma resposta detalhada.
Métodos
Treinamos este modelo usando Reinforcement Learning from Human Feedback (RLHF), usando os mesmos métodos do InstructGPT, mas com pequenas diferenças na configuração da coleta de dados. Treinamos um modelo inicial usando ajuste fino supervisionado: treinadores humanos de IA forneciam conversas nas quais jogavam dos dois lados - o usuário e um assistente de IA. Demos aos treinadores acesso a sugestões escritas em modelo para ajudá-los a compor suas respostas.
Para criar um modelo de recompensa para aprendizado por reforço, precisávamos coletar dados de comparação, que consistiam em duas ou mais respostas do modelo classificadas por qualidade. Para coletar esses dados, pegamos conversas que os treinadores de IA tiveram com o chatbot. Selecionamos aleatoriamente uma mensagem escrita por modelo, experimentamos várias conclusões alternativas e pedimos aos treinadores de IA que as classificassem. Usando esses modelos de recompensa, podemos ajustar o modelo usando Proximal Policy Optimization. Realizamos várias iterações desse processo.
Limitações
Às vezes, o ChatGPT escreve respostas que parecem plausíveis, mas incorretas ou sem sentido. Corrigir esse problema é desafiador, pois: (1) durante o treinamento de RL, atualmente não há fonte de verdade; (2) treinar o modelo para ser mais cauteloso faz com que ele recuse perguntas que pode responder corretamente; e (3) o treinamento supervisionado engana o modelo porque a resposta ideal depende do que o modelo sabe, e não do que o demonstrador humano sabe.
O ChatGPT é sensível a ajustes na frase de entrada ou tentativas do mesmo prompt várias vezes. Por exemplo, dada a formulação de uma pergunta, o modelo pode alegar não saber a resposta, mas, com uma pequena reformulação, pode responder corretamente.
O modelo geralmente é excessivamente detalhado e usa certas frases, como reafirmar que é um modelo de linguagem treinado pela OpenAI. Esses problemas surgem de vieses nos dados de treinamento (os instrutores preferem respostas mais longas que pareçam mais abrangentes) e problemas conhecidos de otimização excessiva.
Idealmente, o modelo faria perguntas esclarecedoras quando o usuário fornecesse uma consulta ambígua. Em vez disso, nossos modelos atuais geralmente adivinham o que o usuário pretendia.
Embora tenhamos feito esforços para fazer com que o modelo recuse solicitações inapropriadas, às vezes ele responde a instruções prejudiciais ou exibe um comportamento tendencioso. Estamos usando a API de moderação para avisar ou bloquear certos tipos de conteúdo inseguro, mas esperamos que haja alguns falsos negativos e positivos por enquanto. Estamos ansiosos para coletar feedback do usuário para ajudar nosso trabalho contínuo para melhorar este sistema.