Vídeo criado usando 7 IAs (pelo menos)!
Isso que estou desconsiderando as buscas no Google, o uso do tradutor, e as pequenas ferramentas "invisíveis" no processo. Ou seja, valendo pra conta apenas o que tive que instalar e configurar ou usar como um serviço de IA declaradamente.
Desde o roteiro com as falas que foram 100% criadas pelo Chat GPT, passando pela composição da música de fundo feita com a Amper, o Adobe Podcast que recriou minha voz a partir de um audio ruim, o Resemble AI que sintetizou minha voz em inglês para que eu gerasse um outro vídeo com dublagem, o BackgroundMattingV2 que removeu o fundo sem eu usar tela verde, o Stable Diffusion que gerou a imagem de escritório ao fundo a partir de um prompt de texto, até o fato de eu ficar "olhando pra câmera" quando na verdade estou lendo em outro monitor (NVidia Maxine AR SDK)! Tudo isso com apoio das I.A.s!
Falas do roteiro
Esse daqui tem vídeo e notícia nova toda hora. O Chat GPT!
Mas recorri ao nosso mais novo amigo, pra pedir o roteiro com as falas exatas que usei para gravar o vídeo.
Observe que mesmo eu já tendo uma idéia clara do que precisava, consegui ter um retorno com uma estruturação bacana de apresentação de forma fuída.
Abaixo a solicitação que fiz e a resposta:
Alexandre:
Crie um roteiro pra um vídeo onde eu falo sobre algumas ferramentas de inteligência artificial que apliquei no próprio vídeo.
Com o Chat GPT eu gerei o roteiro do vídeo, com o NVidia Maxine eu fiz meus olhos parecerem olhar sempre para a câmera mesmo quando eu estou lendo o texto no monitor ao lado, com o Adobe Podcast transformei o áudio de baixa qualidade em um áudio que parece gravação em estúdio, gerei a dublagem do vídeo para inglês sintetizando a minha voz com o Resemble AI, recortei o fundo do vídeo com o BackgroundMattingV2 sem usar tela verde, e gerei a imagem do fundo a partir de uma descrição em texto com Stable Diffusion.
Escreva o que eu preciso falar no vídeo, citando as ferramentas utilizadas.
Chat GPT:
Olá, sejam bem-vindos ao meu vídeo sobre inteligência artificial.
Hoje, eu quero falar sobre algumas ferramentas incríveis de IA que eu utilizei neste próprio vídeo.
Em primeiro lugar, o Chat GPT me ajudou a criar o roteiro do vídeo de maneira rápida e eficiente.
Depois, utilizei o NVidia Maxine para fazer com que meus olhos parecessem sempre olhar para a câmera, mesmo quando eu estava lendo o texto no monitor ao lado.
O Adobe Podcast foi uma ferramenta fundamental para melhorar a qualidade do áudio, transformando-o em um som de estúdio.
Além disso, usei o Resemble AI para sintetizar minha voz e criar uma dublagem do vídeo em inglês.
O BackgroundMattingV2 foi muito útil para recortar o fundo do vídeo sem precisar usar tela verde.
Por fim, utilizei o Stable Diffusion para gerar a imagem de fundo do vídeo a partir de uma descrição em texto.
Espero que tenham gostado deste vídeo sobre inteligência artificial e das ferramentas incríveis que utilizei. Obrigado por assistir.
Zóio de Tandera
Dentre todas as coisas que eu estava estudando, o NVidia Maxine AR SDK foi o que me motivou a fazer o vídeo. O resultado é impressionante, e funciona em tempo real!
*Desde que vc tenha uma placa NVidia compatível.
Por mais que durante o vídeo eu estava olhando pro monitor do lado e lendo o roteiro, não perdi o contato visual com a câmera.
Isso pode ser usado em chamadas ao vivo (Zoom, Google Meet, Teams, etc.) com uma pequena gambiarra de espelhar uma janela para o OBS Studio e ligar a câmera Virtual.
Voz de veludo
Acredito que esse foi o mais fácil de usar, bastou arrastar o aúdio pro site do Adobe Podcast, não precisou nem fazer uma conta. Mas acredito que os resultados em inglês devam ficar melhores.
Para fazer a tradução e dublagem do vídeo, sintetizei minha voz em inglês com o Resemble AI. Gravando exemplos para a IA aprender meu timbre de voz, e depois joguei o texto gerado pelo Chat GPT no google tradutor.
Com o resultado em mãos, gerei os áudios com base no meu modelo treinado de voz e fiz o encaixe dos blocos de audio manualmente no vídeo ajustando o tempo pra encaixar com o movimento labial.
Ficou parecendo uma mistura de narração de GPS com Discovery Channel, mas achei muito legal.
Pra criar a música de fundo foram apenas alguns cliques no Amper Music.
Beijo na boca (e tela verde) é coisa do passado
...A moda agora é: gravar com fundo falso!
Aqui usei duas ferramentas,
- o BackgroundMattingV2 que removeu o fundo usando uma foto do fundo sem ninguém como referência, e sem eu precisar usar um Croma Key (tela verde/ azul).
Tive um pouco de dificuldade pra configurar os CUDA Cores corretamente na minha versão do WSL (Ubunto 22.04) e rodar o BackgroundMattingV2, mas depois de um pouco de persistência, deu tudo certo.
Não é a primeira vez que isso acontece, mas tentei baixar arquivos do site oficial da NVidia em português e os links estavam errados, mudei pra Inglês e foi. :/
- E o Stable Diffusion que gerou a imagem de escritório que utilizei pro fundo. Escrevi um artigo bem completo sobre o treinamento dos meus próprios modelos com Stable Diffusion, tá aqui mesmo no pedaço mais massa da interwebs.
.
Conclusão
Eu poderia ter usado coisas pra melhorar a imagem, fazer upscale, gerar elementos em 3D e muito mais. Mas já deu pra ter um gostinho do quanto essas ferramentas podem nos auxiliar com produtividade. :)
E aí? conta pra gente algo legal que você testou de IA ou deixa a sua opinião sobre o futuro dos empregos de desenvolvimento, arte e outras áreas de criação, que sempre pensávamos que não seriam substituídas.
Valeu!!