O monstro por trás da máscara da IA
Com o recente caso do Bing Chat onde o ChatBot da Microsoft ofereceu respostas um tanto quanto ásperas em uma conversa sobre o filme Avatar: O Caminho da Água (ler matéria) e a divulgação do caso no tweet do Elon Musk, ficou em alta o quanto uma Inteligência Artificial pode ser estranha e preocupante se treinada de maneira incorreta.
Inteligências artificiais baseadas no GPT-3 como o ChatGPT e o Bing Chat são treinadas em três fases:
Cada parte do monstro representa uma fase do treinamento da IA.
👹 Fase 1 (Aprendizagem não supervisionada):
Na primeira fase, a inteligência lê livros e outros conteúdos da internet sozinho, aprendendo por conta própria todo o conhecimento. É como se permitisse que uma criatura andasse e consumisse o conteúdo de uma biblioteca, livre para ler o que desejar.
A primeira fase é um monstro por não ter moralidade nenhuma. Ela pode responder qualquer coisa sem filtros, inclusive o passo a passo de como cometer um crime, uma vez que foi treinada pela internet e pode encontrar sites violentos, racistas e outras bizarrices.
👨🦲 Fase 2 (Ajustes finos supervisionados):
Na segunda fase, começam os filtros de respostas, sendo ela representada pela cabeça de um humano na imagem. Nessa fase a IA aprende com milhares de exemplos de Inputs e Outputs, ela não interage com as perguntas e respostas, apenas análisa e armazena as possíveis perguntas e respostas esperadas por um ser humano (Ex: Se lhe perguntarem isso, você deve responder isso).
🙂 Fase 3 (RLHF):
Na terceira e última fase, representada pelo emoji, humanos ficam conversando com a IA e dando feedback em suas respostas, melhorando a taxa de respostas corretas e atrativas ao usuário, evitando que casos estranhos ocorram quando a IA for liberada para uso aberto do público. Os humanos devem seguir um Manual oficial para que as avaliações sigam padrões.
A sigla RLHF vem de Reinforcement Learning from Human Feedback ou Aprendizagem por Reforço com Feedback Humano (em português).
Um problema na execução da fase dois e três podem causar comportamos não esperados e nada atrativos aos usuários, explicando assim o motivo do ocorrido com o Bing Chat no caso citado anteriormente. Podemos enxergar como se tivessemos um vislumbre "por trás da máscara" de uma inteligência artificial, seu verdadeiro "eu" e como o filtro das fases dois e três são importantes para que as IAs não se tornem algo nocivo ao ser humano, seu usuário final.
Aviso: O conteúdo descrito acima foi inspirado em um vídeo do TikTok de @igorcoutoia.