Isso que estou desconsiderando as buscas no Google, o uso do tradutor, e as pequenas ferramentas "invisíveis" no processo. Ou seja, valendo pra conta apenas o que tive que instalar e configurar ou usar como um serviço de IA declaradamente.

Desde o roteiro com as falas que foram 100% criadas pelo Chat GPT, passando pela composição da música de fundo feita com a Amper, o Adobe Podcast que recriou minha voz a partir de um audio ruim, o Resemble AI que sintetizou minha voz em inglês para que eu gerasse um outro vídeo com dublagem, o BackgroundMattingV2 que removeu o fundo sem eu usar tela verde, o Stable Diffusion que gerou a imagem de escritório ao fundo a partir de um prompt de texto, até o fato de eu ficar "olhando pra câmera" quando na verdade estou lendo em outro monitor (NVidia Maxine AR SDK)! Tudo isso com apoio das I.A.s!

Vídeo com os melhoramentos:
Vídeo com áudio original baixo e com ruídos:
Vídeo traduzido com Google Translator e dublado em inglês pela IA:

Falas do roteiro

Esse daqui tem vídeo e notícia nova toda hora. O Chat GPT!
Mas recorri ao nosso mais novo amigo, pra pedir o roteiro com as falas exatas que usei para gravar o vídeo.
Observe que mesmo eu já tendo uma idéia clara do que precisava, consegui ter um retorno com uma estruturação bacana de apresentação de forma fuída.
Abaixo a solicitação que fiz e a resposta:

Alexandre:

Crie um roteiro pra um vídeo onde eu falo sobre algumas ferramentas de inteligência artificial que apliquei no próprio vídeo.
Com o Chat GPT eu gerei o roteiro do vídeo, com o NVidia Maxine eu fiz meus olhos parecerem olhar sempre para a câmera mesmo quando eu estou lendo o texto no monitor ao lado, com o Adobe Podcast transformei o áudio de baixa qualidade em um áudio que parece gravação em estúdio, gerei a dublagem do vídeo para inglês sintetizando a minha voz com o Resemble AI, recortei o fundo do vídeo com o BackgroundMattingV2 sem usar tela verde, e gerei a imagem do fundo a partir de uma descrição em texto com Stable Diffusion.
Escreva o que eu preciso falar no vídeo, citando as ferramentas utilizadas.

Chat GPT:

Olá, sejam bem-vindos ao meu vídeo sobre inteligência artificial.
Hoje, eu quero falar sobre algumas ferramentas incríveis de IA que eu utilizei neste próprio vídeo.
Em primeiro lugar, o Chat GPT me ajudou a criar o roteiro do vídeo de maneira rápida e eficiente.
Depois, utilizei o NVidia Maxine para fazer com que meus olhos parecessem sempre olhar para a câmera, mesmo quando eu estava lendo o texto no monitor ao lado.
O Adobe Podcast foi uma ferramenta fundamental para melhorar a qualidade do áudio, transformando-o em um som de estúdio.
Além disso, usei o Resemble AI para sintetizar minha voz e criar uma dublagem do vídeo em inglês.
O BackgroundMattingV2 foi muito útil para recortar o fundo do vídeo sem precisar usar tela verde.
Por fim, utilizei o Stable Diffusion para gerar a imagem de fundo do vídeo a partir de uma descrição em texto.
Espero que tenham gostado deste vídeo sobre inteligência artificial e das ferramentas incríveis que utilizei. Obrigado por assistir.

Zóio de Tandera

Dentre todas as coisas que eu estava estudando, o NVidia Maxine AR SDK foi o que me motivou a fazer o vídeo. O resultado é impressionante, e funciona em tempo real!
*Desde que vc tenha uma placa NVidia compatível.

Por mais que durante o vídeo eu estava olhando pro monitor do lado e lendo o roteiro, não perdi o contato visual com a câmera.

Isso pode ser usado em chamadas ao vivo (Zoom, Google Meet, Teams, etc.) com uma pequena gambiarra de espelhar uma janela para o OBS Studio e ligar a câmera Virtual.

Demonstração do Gaze Redirection no NVidia Maxine:

Voz de veludo

Acredito que esse foi o mais fácil de usar, bastou arrastar o aúdio pro site do Adobe Podcast, não precisou nem fazer uma conta. Mas acredito que os resultados em inglês devam ficar melhores.

Para fazer a tradução e dublagem do vídeo, sintetizei minha voz em inglês com o Resemble AI. Gravando exemplos para a IA aprender meu timbre de voz, e depois joguei o texto gerado pelo Chat GPT no google tradutor.
Com o resultado em mãos, gerei os áudios com base no meu modelo treinado de voz e fiz o encaixe dos blocos de audio manualmente no vídeo ajustando o tempo pra encaixar com o movimento labial.
Ficou parecendo uma mistura de narração de GPS com Discovery Channel, mas achei muito legal.

Pra criar a música de fundo foram apenas alguns cliques no Amper Music.

Beijo na boca (e tela verde) é coisa do passado

...A moda agora é: gravar com fundo falso!

Aqui usei duas ferramentas,

o BackgroundMattingV2 que removeu o fundo usando uma foto do fundo sem ninguém como referência, e sem eu precisar usar um Croma Key (tela verde/ azul).

Tive um pouco de dificuldade pra configurar os CUDA Cores corretamente na minha versão do WSL (Ubunto 22.04) e rodar o BackgroundMattingV2, mas depois de um pouco de persistência, deu tudo certo.

Não é a primeira vez que isso acontece, mas tentei baixar arquivos do site oficial da NVidia em português e os links estavam errados, mudei pra Inglês e foi. :/

E o Stable Diffusion que gerou a imagem de escritório que utilizei pro fundo. Escrevi um artigo bem completo sobre o treinamento dos meus próprios modelos com Stable Diffusion, tá aqui mesmo no pedaço mais massa da interwebs.
.

Conclusão

Eu poderia ter usado coisas pra melhorar a imagem, fazer upscale, gerar elementos em 3D e muito mais. Mas já deu pra ter um gostinho do quanto essas ferramentas podem nos auxiliar com produtividade. :)

E aí? conta pra gente algo legal que você testou de IA ou deixa a sua opinião sobre o futuro dos empregos de desenvolvimento, arte e outras áreas de criação, que sempre pensávamos que não seriam substituídas.

Valeu!!

Vídeo criado usando 7 IAs (pelo menos)!

Falas do roteiro

Zóio de Tandera

Voz de veludo

Beijo na boca (e tela verde) é coisa do passado

Conclusão