🔥 UTILIZEI INTELIGÊNCIA ARTIFICIAL PARA CRIAR UMA STREAMER (VTUBE) QUE INTERAGE COM VOCÊ 🔥
LINK DEMO: https://www.youtube.com/watch?v=E8NqIvSYdeA
Olá! Tenho observado as transmissões ao vivo na Twitch e percebi a ascensão das VTubers, aquelas personalidades que utilizam avatares 3D com sincronização labial.
Com essa tendência em mente, tive a ideia de explorar um mecanismo de conversão de texto para fala (TTS) com um modelo 3D capaz de interpretar o áudio gerado e realizar movimentos faciais em sincronia com a fala.
Para implementar essa experiência, estou utilizando o LLM open source Llama 2 7B. Passo as mensagens recebidas pelos usuários usando a API da Twitch para o LLM, que gera uma resposta com base na pergunta do usuário.
Em seguida, utilizo um mecanismo de TTS conhecido como CoquiTTS para gerar a voz correspondente à resposta. Além disso, o modelo 3D entra em cena para observar a saída do TTS e gerar a sincronia labial.
Estou dedicando esforços para aprimorar cada etapa desse processo. Por exemplo, estou ajustando os parâmetros do CoquiTTS para garantir uma voz mais natural e fluente, e estou explorando maneiras de tornar as respostas do LLM mais contextuais e inteligentes.
Nota: Não estou usando nenhum dos mecanismo e tecnologias para uso comercial nesse projeto!
CoquiTTS:
https://github.com/coqui-ai/TTS
Llama 2 7B:
https://github.com/getumbrel/llama-gpt
Modelo 3D com lyp sync:
https://github.com/Automattic/VU-VRM