Como o Sora funciona?

O Sora é uma mistura de ferramentas de geração de texto e imagem, num esquema chamado “modelo de transformador de difusão”. Os transformadores são um tipo de rede neural que o Google lançou em 2017. Eles são famosos por serem usados em modelos de linguagem gigantes, tipo o ChatGPT e o Google Gemini.

Agora, os modelos de difusão são a base de muitos geradores de imagens de IA. Eles começam com um ruído aleatório e vão iterando até chegar numa imagem “limpa” que se encaixa no prompt de entrada.

Um vídeo pode ser feito a partir de uma sequência dessas imagens. Mas num vídeo, a coerência e a consistência entre os frames são essenciais. O Sora usa a arquitetura do transformador pra lidar com a forma como os frames se relacionam entre si. Embora os transformadores tenham sido inicialmente projetados pra encontrar padrões em tokens que representam texto, o Sora usa tokens que representam pequenos patches filmes.

Hãm? Patches?

Patches, Tokens e Dados

Os patches são uma unidade básica do Sora da mesma forma que o “token” é a unidade básica do GPT. Tokens são pedaços de palavras, enquanto patches são pedaços de filmes.

O GPT-4 foi treinado pra receber uma sequência de tokens e gerar o próximo token na sequência. O Sora foi treinado pra fazer a mesma coisa: ele pega uma sequência de patches e gera o próximo “patch” na sequência.

As abordagens anteriores de texto pra vídeo exigiam que as imagens e os vídeos usados no treinamento tivessem todos o mesmo tamanho, o que exigia um pré-processamento significativo pra reduzir o tamanho dos vídeos. Mas como o Sora treina em “patches” em vez de no quadro completo do vídeo, ele pode engolir qualquer vídeo ou imagem sem precisar cortá-lo.

Daqui pra frente

O GPT-4 parece aprender as regras gramaticais pra prever a próxima palavra numa sequência. Modelos de transformadores de difusão como o Sora parecem aprender física - a gramática do universo - pra prever o próximo segmento de vídeo.

A OpenAI vê o Sora como o primeiro passo num “simulador de mundo” que pode modelar qualquer fatia da realidade com um prompt de texto.

Fiquem ligados que essa parada vai longe!

Como o Sora Realmente Funciona?

Como o Sora funciona?

Patches, Tokens e Dados

Daqui pra frente