1 min de leitura ·

🔥 UTILIZEI INTELIGÊNCIA ARTIFICIAL PARA CRIAR UMA STREAMER (VTUBE) QUE INTERAGE COM VOCÊ 🔥

LINK DEMO: https://www.youtube.com/watch?v=E8NqIvSYdeA

Olá! Tenho observado as transmissões ao vivo na Twitch e percebi a ascensão das VTubers, aquelas personalidades que utilizam avatares 3D com sincronização labial.

Com essa tendência em mente, tive a ideia de explorar um mecanismo de conversão de texto para fala (TTS) com um modelo 3D capaz de interpretar o áudio gerado e realizar movimentos faciais em sincronia com a fala.

Para implementar essa experiência, estou utilizando o LLM open source Llama 2 7B. Passo as mensagens recebidas pelos usuários usando a API da Twitch para o LLM, que gera uma resposta com base na pergunta do usuário.

Em seguida, utilizo um mecanismo de TTS conhecido como CoquiTTS para gerar a voz correspondente à resposta. Além disso, o modelo 3D entra em cena para observar a saída do TTS e gerar a sincronia labial.

Estou dedicando esforços para aprimorar cada etapa desse processo. Por exemplo, estou ajustando os parâmetros do CoquiTTS para garantir uma voz mais natural e fluente, e estou explorando maneiras de tornar as respostas do LLM mais contextuais e inteligentes.

Nota: Não estou usando nenhum dos mecanismo e tecnologias para uso comercial nesse projeto!

CoquiTTS:
https://github.com/coqui-ai/TTS

Llama 2 7B:
https://github.com/getumbrel/llama-gpt

Modelo 3D com lyp sync:
https://github.com/Automattic/VU-VRM

Fonte: https://www.linkedin.com/in/bryan-torres-ribeiro-20a0531a8/

1lucas

1 ano atrás

Boa noite Bryan.
Legal, curti!
Dei uma olhada no link do youtube para ver como está o projeto e gostei do caminho que está andando, você tem potencial. Me conectei com você no LinkedIn para continuar acompanhando o projeto.
Parabéns!

cybermazinho

Autor

1 ano atrás

Obrigado lucas, já aceitei o convite :)

clacerda

1 ano atrás

Obrigado por compartilhar este projeto incrível, estou realmente impressionado com os resultados e vejo um potencial enorme nele. É uma pena que, embora o projeto se baseie em tecnologias abertas, ele mesmo não seja aberto, ou estou perdendo algo? Eu também gostaria de me apoiar nesses 'ombros de gigantes'. Recentemente critiquei aqui no Tabnews como muitos aplicativos 'inteligentes' são apenas uma interface para o GPT da OpenAI, mas isso é completamente o oposto.

Tenho algumas perguntas, talvez você possa responder ou não. Como você integra isso na transmissão ao vivo? Presumo que esteja usando OBS. Como você renderiza na web, suponho que possa adicionar isso como uma fonte, o que é legal. Vê alguma utilidade ou forma de integrar a API de script em Python/Lua de alguma maneira? Além disso, como você interage com o chat do Twitch? É através de IRC ou de outra forma?

Enquanto estou verdadeiramente impressionado com a sincronização labial, imagino que a principal 'atração' das VTubers seja a reação às emoções, certo? Você vê alguma direção ou pesquisa em que seu modelo de IA possa incorporar isso? E sobre renderizar essas emoções no avatar? Como última pergunta, gostaria de saber se você experimentou com diálogos em português

Gostaria de ler qualquer outra coisa que você queira compartilhar sobre estes pontos. E, finalmente, enquanto ler/responder perguntas é ótimo, como você vê o futuro para esse agente realmente apresentar uma transmissão ao vivo?

Parabéns pelo excelente projeto e estou ansioso para ouvir grandes coisas sobre ele no futuro!

Um abraço e bons estudos!

andresousa

1 ano atrás

Tecnologicamente falando é impressionante, bom trabalho

A minha única dúvida é quais seriam os usos para isso que fariam mais sucesso... Não entendo muito de V-Tuber, mas acredito que muito do sucesso deles venham da atuação da pessoa por trás da transmissão. Gerando as respostas automaticamente, isso se perde um pouco