Estudo indica que modelos de IA são inferiores aos humanos em todos os aspectos para resumir informações
O teste foi conduzido pela Amazon no início deste ano para a Comissão de Valores Mobiliários e Investimentos da Austrália (ASIC, na sigla em inglês), utilizando submissões feitas para uma investigação parlamentar sobre empresas de auditoria e consultoria.
O modelo mais promissor, o Llama2-70B de código aberto da Meta, foi instruído a resumir as submissões com foco em menções à ASIC, recomendações, referências a regulamentações, e em incluir referências de página e contexto. Em paralelo, dez funcionários da ASIC, de diferentes níveis de senioridade, receberam a mesma tarefa com instruções semelhantes.
Em seguida, um grupo de revisores avaliou cegamente os resumos gerados tanto por humanos quanto pela IA, considerando critérios como coerência, comprimento, referências à ASIC e à regulamentação, além de identificação e recomendações. Eles concluíram que os resumos feitos por humanos superaram os gerados por IA em todos os critérios e submissões, alcançando uma pontuação de 81% em uma rubrica interna, em comparação com os 47% obtidos pela máquina, destacando que os resumos gerados por IA frequentemente careciam de ênfase, nuance e contexto, além de incluir informações incorretas ou omitir dados relevantes. Três dos cinco revisores conseguiram identificar que estavam analisando conteúdo gerado por IA.
O feedback geral indicou que os resumos feitos por IA podem ser contraproducentes, gerando mais trabalho devido à necessidade de verificação de fatos e consulta às submissões originais, que transmitiam a mensagem de forma mais clara e concisa.