Microsoft apresenta sistema capaz de controlar softwares e sistemas robóticos
O Magma combina processamento de linguagem e visão, permitindo não apenas interpretar informações multimodais — como texto, imagens e vídeos — mas também agir sobre elas. Com essa abordagem, ele viabiliza a realização de tarefas interativas tanto no ambiente digital quanto no mundo físico.
Diferentemente de soluções semelhantes que utilizam modelos separados para percepção e controle, o Magma integra ambos em um único sistema, facilitando a execução de tarefas complexas e de múltiplas etapas, como navegar por interfaces de software ou operar robôs. O sistema é capaz de formular planos e executar ações com base em descrições textuais, unificando inteligência verbal, espacial e temporal para resolver desafios de forma mais eficiente.
Baseado na tecnologia Transformer, a mesma utilizada em modelos de linguagem como o GPT-4V, o Magma identifica elementos interativos em um ambiente e atribui rótulos numéricos a objetos manipuláveis, como botões clicáveis em interfaces ou itens que podem ser segurados por robôs. Além disso, o sistema aprende padrões de movimento a partir de vídeos, permitindo controlar robôs e interagir de forma dinâmica com interfaces digitais.
No benchmark VQAv2 (que avalia perguntas e respostas visuais), o Magma-8B alcançou 80 pontos, superando o GPT-4V (77,2), mas ficando atrás do LLaVA-Next (81,8). No benchmark POPE, que mede a interação com interfaces, o sistema obteve 87,4 pontos, superando o LLaVA-Next (86,5). Apesar do desempenho, a Microsoft reconhece que o Magma ainda apresenta limitações em tarefas complexas que exigem múltiplas decisões ao longo do tempo.
O código-fonte do projeto está disponível no repositório microsoft/Magma no GitHub.