Muito legal!! Parabéns
Fiz algo parecido onde eu pegava um texto e gerava o áudio usando o site speechify (acho a fala mais natural), gerava imagens usando a api do Dall-e e juntava as imagens com legenda num vídeo em mp4.
Muito obrigado pelo teu comentário mano!
Tenho muita vontade de melhorar o TTS, ainda não achei nada gratuito e melhor que essa lib que usei (gtts
) mas vou estudar se é possível automatizar através do site speechify de alguma forma. Sobre as imagens geradas por IA via API, tá em primeiro lugar no meu roadmap! :D
Opa disponha.
No caso eu precisei utilizar selenium pra poder interagir com o site. Não sei se seria interessante pra você, mas se quiser eu tento resgatar o código.
Seria muito massa mano! sei que dá pra usar selenium com node também então seria muito útil ver a forma que tu implementou!
Fiz um notebook no colab com o código que eu criei.
Veja se consegue rodar e me dá um toque se ficar com alguma dúvida
https://colab.research.google.com/drive/1Xm5_MhIFXd0D__fl4_d6lrqYuoVxw7yx?usp=sharing
Roda ele completo e nos últimos blocos tem as variáveis pra você mudar o texto e a voz.