Para quem precisa consumir um texto, mas prefere áudio, acho que a qualidade está satisfatória mesmo. Fica melhor do que no Edge, porque de vez em quando ele lê palavras em português como se fosse inglês (exemplo, face
), ou o contrário, e às vezes se atrapalha com uma pontuação numa abreviação, achando que é ponto final.
Para realmente passar a impressão de que é o Filipe, ainda falta aperfeiçoar mais. O Lucas Montano lançou um vídeo hoje onde mostrou dois áudios gerados pela Eleven Labs. Acredito que ele tenha feito o treinamento mais completo, pois ficou realmente muito parecido com ele falando. Pode ver pela entonação e até onomatopéias ("não é mesmo, ãhn?").
Tudo depende do seu objetivo. Eu acho esse um projeto bem interessante. Já testei o Speechify, mas achei o preço salgado para o meu nível de consumo. Não sei o quão lucrativo é um projeto assim, na prática.