Executando verificação de segurança...
6

🤖 Como eu Programei 6 Robôs que criam podcasts no Spotify

Inspirado pelo vídeo do Filipe, que mostrou que criou uma automação para gerar vídeos automáticos para o YouTube, isso plantou uma semente na minha cabeça. Já fazia tempo que eu pensava em contribuir com o projeto, mas queria fazer do meu jeito, implementando uma nova versão com as tecnologias mais avançadas de IA, como os famosos LLMs, para criar conteúdo. E aí me veio uma dúvida: por que não também usar os mais recentes Text To Speech (TTS) e as tecnologias de geração de imagem com IA generativa?

Muitas ideias passaram pela minha cabeça, mas decidi fazer duas coisas antes de me empolgar com o código: criar uma audiência e produzir conteúdo usando IA. A primeira coisa que fiz foi escolher um nicho. Optei pelo setor automotivo e comecei com um blog no WordPress, usando IA para criar artigos sobre carros. Naquela época, estava usando o mais recente GPT-3.5 Turbo e gastava cerca de 5 centavos de dólar para gerar um artigo no meu blog. Só que isso não estava me dando a visibilidade que eu queria. Embora os artigos fossem indexados pelo Google, levava muito tempo para ganhar tração. Foi aí que parti para o próximo passo: usar as redes sociais.

Criei uma conta no Instagram chamada "Carssifier" e comecei a criar os primeiros vídeos utilizando sintetizadores de voz TTS disponíveis no mercado. Editei tudo no Capcut e, voilà, tinha minha rede social funcionando. Continuei postando conteúdo meio gerado por IA, meio por humano, e minha audiência cresceu, chegando a quase 10 mil seguidores no Instagram em apenas um ano. Me empolguei muito em criar vídeos sobre carros e o mercado automotivo, mas no fundo estava perdendo a essência e meu objetivo de automatizar as coisas e usar IA como o centro de tudo. Foi então que tive uma ideia.

Decidi usar IA para criar um podcast de carros e distribuí-lo pelo Spotify. Foi isso que fiz. Basicamente, o que desenvolvi será a estrutura inicial de criação de vídeos automáticos para o YouTube.

Basicamente, um vídeo envolve muitas partes: um roteiro, a voz que está sobre o vídeo, efeitos sonoros, imagens e vídeos – coisas que aprendi na experiência prática com as redes sociais. Até o momento, desenvolvi um criador de roteiros e um gerador de áudio para os podcasts, e espero adicionar efeitos sonoros e imagens automáticas em breve. Agora, vou detalhar os 6 "robôs" que automatizam o processo de criação do podcast.

Os 6 Robôs que Automatizam o Processo

  1. Coletor de Links Automotivos: Esse foi o primeiro robô que eu criei, e ele já me deu bastante trabalho. Basicamente, escrevi um script Python que funciona como um crawler, buscando sites sobre carros. Ele faz o crawling das páginas internas e salva todos os links encontrados em um banco de dados. Usei BeautifulSoup e regex para coletar o máximo de informações possível. Além disso, adicionei BERT para fazer algumas análises mais sofisticadas. Foi desafiador, mas necessário para identificar sites automotivos, notícias e as datas de publicação.

  2. Coletor de Notícias: Aqui, o desafio era extrair os títulos e conteúdos das matérias sem confundir com menus ou propagandas ou outras noticias que apareciam apenas o resumo inicial. Tive que ser bastante criativo para garantir que ele capturasse apenas os parágrafos relevantes.

  3. Selecionador de Notícias: Esse foi o momento em que o GPT-4o-mini entrou em ação. Configurei o modelo para selecionar as notícias mais relevantes para publicação, seguindo regras rígidas que eu mesmo defini. Foi interessante ver como ele evita fake news e prioriza temas nostálgicos, exatamente como eu queria.

  4. Gerador de Artigos: Agora, com o GPT-4o, a tarefa ficou mais interessante. Ele cria o título, a subheadline e o conteúdo principal dos artigos. O texto final fica coeso e bem estruturado, parecendo até que foi escrito por um humano. Mas isso é basicamente um resumo reescrito da notícia.

  5. Revisor de Artigos: Como eu não gosto de veículos elétricos, implementei um robô para revisar os artigos e garantir que seguissem minhas regras editoriais. Ele elimina duplicatas e propagandas e exclui qualquer menção positiva a carros elétricos. Eu não tinha tempo para revisar todas as noticias, então eu usei uma IA para revisar o conteúdo de outra IA.

  6. Criador de Podcasts: Por último, configurei uma LLM para gerar a fala da âncora Aira, só gera os textos das falas que serão criados os áudios logo em seguida. Depois, usei um script para produzir os áudios. Como as falas são geradas por paragrafos, eu também gero cada áudio por parágrafo, gerando diversos arquivos MP3. Ainda estou trabalhando para automatizar a combinação dos arquivos MP3, mas o processo já está funcionando bem.

Ao final, basta combinar os arquivos MP3 e fazer o upload no Spotify, que distribui para outras plataformas como YouTube Music e Amazon Music. Assim, um podcast quase totalmente criado por IA é finalizado e revisado por IA.

Tem muito ainda que eu quero fazer, como criar uma estratégia para revisar automaticamente os áudios que as vezes ainda falha a pronúncia de alguma palavra, e de até mesmo usar editores revisores para não só garantir que o podcast final gerado também siga as regras editoriais, como também quando há alguma coisa que não seja aprovado pelo revisor, seja encaminhado para um novo editor que vai melhorar com os pontos levantados pelo revisor.

Quer ver como ficou o Podcast?

https://open.spotify.com/show/2Zm9NKWHJL8kqOeRWZrIem

Veja mais

Spotify: Tutu notícias Automotivas
Instagram:@Carssifier
Youtube:@Carssifier

Carregando publicação patrocinada...
1
2
0
2

este é um problema que estou enfrentando no momento. Atualmente eu uso o Elevenlabs no plano de 5 USD por mes para utilizar as APIs deles. O problema é que a quantidade de créditos é muito baixa para geração massiva de conteúdo - 30 minutos de audio é muito pouco. Estou testando a COQUI TTS que é um projeto open source, mas ainda não cheguei em resultado legal igual do Eleven Labs.

1
1

Esse é o principal problema de projetos que querem usar IA para criação mas não tem investimento necessário. Nós temos projetos grandes com IA e a fatura passa dos milhares de reais facilmente. A maior dificuldade é encontrar o valor correto para equilibrar as contas e pra isso a ferramenta precisa ser muito, mais muito atrativa para o cliente.

1

eu fiquei muito feliz que os custos com os modelos 4o estão bem mais baratos se comparados ao GPT-3.5 Turbo e os modelos estão bem mais "espertos". Mas infelizmente solução TTS de qualidade não são muitas hoje em dia

1
1

mas o GPT 4o pro meu projeto já está dentro do meu orçamento, o mais caro pra mim é a API do Eleven Labs, que o Plano IniciL é muito pouco crédito