Muse, a IA da Microsoft capaz de gerar gameplays · rafael

Semana passada a Microsoft anunciou o Muse, um modelo de IA generativo baseado no "WHAM", World and Human Action Model, que é um modelo que simula tanto o mundo do jogo quanto as ações humanas. O Muse pode gerar visuais de jogos, ações do controle ou os dois.

Esse é um tema que vi sendo pouco comentado. Dei uma lida no artigo e resolvi trazer um resumo para cá. Parece bem interessante, e talvez alguém com experiência na área de desenvolvimento de jogos comente pra dar uma opinião mais embasada sobre isso.

A publicação de anúncio no blog da Microsoft é a fonte oficial com a leitura mais fácil de se entender, mas pra se aprofundar você pode ler o artigo na Nature.

Treinamento

Os dados de treinamento foram gameplays de humanos no jogo "Bleeding Edge", tanto do vídeo quanto das ações no controle, numa resolução de 300x180 px, por isso que os vídeos do artigo estão com a resolução baixa. Foram mais de um bilhão de imagens e ações do controle, o que é o equivalente a uma pessoa jogando por 7 anos sem parar.

Os pesquisadores começaram com um cluster de V100, uma placa da NVidia, até conseguirem escalar o treinamento para 100 GPUs. Isso "pavimentou" o caminho para passarem a usar as famosas H100, que parece que são as melhores placas da NVidia para treinamento de IA no momento (posso estar enganado).

Modos de funcionamento

O modelo funciona num modo chamado de "world model mode", que é para prever como o jogo aconteceria a partir da sequência de prompt inicial. Quanto mais essa sequência de gameplay gerada for parecida ao jogo real, significa que o Muse foi mais preciso em entender a dinâmica do jogo.

No artigo tem quatro vídeos diferentes sobre a mesma situação, e eu gravei e coloquei como um GIF abaixo. O primeiro vídeo é a gameplay real, e os outros são 1 segundo de gameplay real (10 frames), seguido por 9 segundos de gameplay gerado pela IA. No primeiro exemplo, com 10 mil treinamentos, o modelo até que começa bem, mas fica tudo confuso muito rápido. Com 100 mil treinamentos já está bem melhor, mas repare que não tem a dinâmica de voo, o personagem apenas dá um pulo. Foi só com 1 milhão de treinamentos que o modelo conseguiu entender a mecânica de voo do jogo e representá-la.

Vídeos conforme descrito acima

Os pesquisadores também desenvolveram um protótipo de conceito para ter interações com o modelo, chamado de WHAM Demonstrator. Não é o modo de interação que eles consideram a melhor experiência do usuário; é só um protótipo pra facilitar a exploração das capacidades do modelo.

No exemplo abaixo, o modelo gerou várias continuações possíveis a partir do prompt inicial que o usuário deu.

Interação com o WHAM Demonstrator

Para que o Muse foi desenvolvido?

A Microsoft foi meio vaga no anúncio, dizendo apenas que esse modelo é para auxiliar na criatividade. Eu não duvido que auxilie, porque já usei LLMs para conseguir elaborar melhor algumas ideias. Acho improvável que exista um "objetivo obscuro" de criar jogos inteiramente com IAs.

Aqui está o que a autora Katja Hofmann disse no artigo:

Em nossa pesquisa, focamos em explorar as capacidades que modelos como o Muse precisam para efetivamente dar suporte a criativos humanos. Estou incrivelmente orgulhosa de nossas equipes e do marco que alcançamos, não apenas mostrando a rica estrutura do mundo do jogo que um modelo como o Muse pode aprender, como você vê na demonstração em vídeo abaixo, mas também, e ainda mais importante, demonstrando como desenvolver insights de pesquisa para dar suporte a usos criativos de modelos de IA generativos.

Além disso, no fim do anúncio, a Microsoft disse que está disponibilizando os pesos utilizados no modelo, o WHAM Demonstrator e dados de amostra para a comunidade no Azure AI Foundry. Será que essa abertura tem potencial de acelerar o desenvolvimento nessa área como o Llama da Meta cooperou com as LLMs? O que vocês acharam disso tudo?