Exatamente, existem vários TTS por aí.
A diferença é que a nossa IA faz:
- Censura
- Lê o texto com voz de personagens e de famosos e não de um modelo padrão da google/azure,etc
- Sotaques diferentes
Todos os TTS sempre tem uma qualidade absurda em inglês mas em português nem tanto. Temos vários sotaques dentro do país, então mesmo se a gente usasse algum TTS desses já diponíveis como base e a voz clonada fosse de um carioca, era claro perceptível que aquela voz falando com sotaque do interior de SP não combinava.
A gente focou em ter um TTS próprio, treinar um modelo próprio, pra ter um TTS base que fosse muito bom no português. Tanto que disso, saiu outro produto, o voz pra video onde a gente visa ser uma Elevenlabs brasileira