Cientistas propõem benchmark universal para avaliar progressão das IAs
O GAIA propõe 466 questões que exigem habilidades fundamentais como raciocínio, manipulação multimodal, navegação na web e uso de outras ferramentas. Em testes, humanos obtiveram 92% de acerto, contra apenas 15% do GPT-4 equipado com plugins. O objetivo do GAIA é focar em tarefas que espelhem as habilidades humanas, um passo essencial para o desenvolvimento da Inteligência Artificial Geral.