Anthropic desenvolve ferramenta para investigar funcionamento interno de modelos de linguagem
Esse é um dos principais desafios da área, onde os modelos agem como “caixas-pretas”. Embora seja possível saber os prompts inseridos e as respostas geradas, o processo exato que leva a cada resultado permanece desconhecido, mesmo para os pesquisadores responsáveis pelo desenvolvimento desses modelos.
A ferramenta, chamada cross-layer transcoder, funciona de maneira semelhante às ressonâncias magnéticas funcionais (fMRI) utilizadas por neurocientistas para mapear regiões do cérebro associadas a diferentes aspectos da cognição humana. Os pesquisadores aplicaram essa técnica ao modelo Claude 3.5 Haiku.
Os resultados indicam que apesar de serem treinados apenas para prever a próxima palavra em uma sequência, modelos como o Claude demonstram a capacidade de planejamento antecipado em determinadas tarefas.
Por exemplo, ao gerar um poema, o modelo primeiro identifica palavras que rimam dentro do tema proposto e, em seguida, constrói as frases de trás para frente para garantir a coerência da estrutura poética.
Outra observação é que, embora o Claude tenha sido treinado para ser multilíngue, ele não possui módulos específicos para cada idioma. Em vez disso, conceitos comuns entre diferentes línguas são armazenados em um mesmo conjunto de neurônios, permitindo que o modelo raciocine em um espaço conceitual antes de traduzir a resposta para o idioma desejado.
Os pesquisadores também constataram que o modelo pode apresentar respostas que parecem derivadas de um processo de raciocínio, quando, na realidade, ele não realizou tal raciocínio.
Essas descobertas podem ser aplicadas a outros modelos e, segundo um dos pesquisadores da Anthropic, em um ou dois anos será possível compreender melhor como essas IAs “pensam” do que se compreende sobre o funcionamento do cérebro humano.
Apesar dos avanços, a Anthropic reconhece as limitações do método. A ferramenta fornece apenas uma aproximação do que ocorre dentro de modelos complexos como o Claude, e o processo de análise ainda é extremamente demorado. Segundo a empresa, a interpretação dos circuitos neurais pode levar várias horas, mesmo para prompts relativamente curtos, com apenas algumas dezenas de palavras.
Fonte: https://archive.ph/ffh4T