Fala Rafael. Eu estou tentando multiplos providers, é bem possivel que nos proximos episodios vejamos diferença nas vozes por conta disso. Mas pra esse em especifico foi Elevenlabs sim com o modo instant voice. Sinceramente, o que voce achou? Pro tamanho de input que eu dei pro treinamento eu achei muito satisfatorio.
Para quem precisa consumir um texto, mas prefere áudio, acho que a qualidade está satisfatória mesmo. Fica melhor do que no Edge, porque de vez em quando ele lê palavras em português como se fosse inglês (exemplo, face
), ou o contrário, e às vezes se atrapalha com uma pontuação numa abreviação, achando que é ponto final.
Para realmente passar a impressão de que é o Filipe, ainda falta aperfeiçoar mais. O Lucas Montano lançou um vídeo hoje onde mostrou dois áudios gerados pela Eleven Labs. Acredito que ele tenha feito o treinamento mais completo, pois ficou realmente muito parecido com ele falando. Pode ver pela entonação e até onomatopéias ("não é mesmo, ãhn?").
Tudo depende do seu objetivo. Eu acho esse um projeto bem interessante. Já testei o Speechify, mas achei o preço salgado para o meu nível de consumo. Não sei o quão lucrativo é um projeto assim, na prática.
eu testei a clonagem profissional com minha voz e ficou muito bom, pra mim superior que o instant voice. O problema é que eu estou enviesado por saber dessa diferença, quando peço pras pessoas ouvirem os dois tipos de audio, elas nao conseguem dizer qual o melhor, tanto que voce me perguntou qual dos dois eu tinha usado. Tenho pensado que o melhor vai ser seguir com algo satisfatorio e ir avançando junto com os modelos. Em algum monento eles vao ficar muito muito proximos da realidade.