Executando verificação de segurança...
1

opa, muito interessante seu projeto. fiz um teste rápido aqui, mas não entendi muito bem o propósito.

pela descrição, eu imaginei que fosse uma ferramenta de "speech to text" ou algo parecido, mas depois de testar, parece mais uma ferramenta de identificação de contexto do conteúdo do áudio.
é esse o intuito?

não seria mais interessante enviar também a transcrição do áudio?

bem. digo isso porque também tenho um sistema de bots pra whatsapp que estou desenvolvendo e uma das funções disponíveis é a transcrição de áudio em texto.

também percebi que o sistema de créditos é um pouco "injusto". mandei um áudio de 3s e foi consumido um crédito. não seria mais interessante criar alguma métrica mais fracionada?

acredito que seu projeto tenha futuro.

Carregando publicação patrocinada...
1

Olá Ericky, tudo bom?
Boas indagações que você fez ai, vou tentar responder todas.

pela descrição, eu imaginei que fosse uma ferramenta de "speech to text" ou algo parecido, mas depois de testar, parece mais uma ferramenta de identificação de contexto do conteúdo do áudio. é esse o intuito?

O objetivo principal do bot é gerar transcrições resumidas das mensagens de voz do WhatsApp para que os usuários possam economizar tempo e se manter organizados, oferecendo uma visão geral do conteúdo de suas mensagens de voz em um formato mais facilmente acessível. Embora o bot utilize tecnologia avançada de reconhecimento de fala para transcrever o áudio, o objetivo principal é fornecer uma visão geral do conteúdo, em vez de uma transcrição completa.

não seria mais interessante enviar também a transcrição do áudio?

Quando consideramos a possibilidade de enviar transcrições completas, encontramos alguns obstáculos significativos. Por exemplo, as mensagens enviadas via Twilio têm um limite de 1600 caracteres. Quando a transcrição excede esse limite, precisamos dividi-la em pedaços menores. Embora tenhamos dividido a transcrição em pedaços de 1600 caracteres cada, isso criou outro obstáculo: as mensagens enviadas sequencialmente não chegavam na ordem correta na conversa do WhatsApp, o que causou problemas na entrega. Como essa não era a nossa principal prioridade do projeto, decidimos adiar essa funcionalidade para uma possível melhoria futura.

também percebi que o sistema de créditos é um pouco "injusto". mandei um áudio de 3s e foi consumido um crédito. não seria mais interessante criar alguma métrica mais fracionada?

Para solucionar esse problema, estamos considerando a adoção de um limite mínimo de tempo de áudio, permitindo que os usuários enviem apenas mensagens de voz com duração superior a um minuto. Essa medida evitará que os usuários sejam cobrados indevidamente por mensagens muito curtas.

Por fim, obrigado pelo seu interesse em nosso projeto e por suas sugestões construtivas. Estamos trabalhando continuamente para melhorar a experiência do usuário e apreciamos qualquer feedback que possa nos ajudar a alcançar esse objetivo.

1

entendi. interessante essa descrição das dificuldades. nao imaginei que a Twilio tinha essa limitação de caracteres.
tendo isso em mente, porque vc adotou a Twilio?
faço essa pergunta por conta de existirem bons projetos opensource self-hosted que automatizam o whatsapp e nao possuem essa limitação (nem custo por uso/envio).

1

Ótima réplica! Vou tentar ser o mais claro possível nas decisões que tomei ao implementar esse serviço.

1º - Eu acredito que não existe almoço grátis. O que eu quero dizer com isso? Por mais que existam outras plataformas que sejam abertas e que eu possa hospedar, no final do dia tudo tem um preço. Eu teria que dar manutenção, fazer possíveis correções, mantê-lo atualizado e rodando. A hospedagem já seria um custo (menor que o do Twilio, lógico, porém não deixa de ser custo).

2º - Eu tenho uma equipe modesta (se é que posso chamar de equipe). Temos duas pessoas trabalhando nesse projeto e ambas são empregadas em tempo integral, ou seja, só temos tempo para nos dedicarmos a esse projeto à noite e nos finais de semana. Eu acredito que essa seja a realidade de 90% dos programadores que querem começar a empreender.

3º - Como se trata de um projeto MVP e está bem estruturado com Clean Architecture e alguns padrões de projeto, eu acredito que esses serviços externos podem ser desplugados e posso plugar novos serviços assim que for preciso. Então, sim, isso pode ser visto como melhoria posteriormente.

4º - Eu ainda não sei onde esse projeto pode chegar. Ainda está embrionário e pode ser que resolva a dor de alguém, ou não. Estou lançando no mercado para ver o que posso tirar de insight para posterioridade.

5º - Por fim, se não der em nada, eu terei um projeto em meu portfólio que utiliza ChatGPT, Whisper, Twilio e Chatbot. O que importa no final de tudo são as experiências e aprendizados.

1

parabens amigo, vejo que voce tem uma ideia bem madura sobre seu projeto e sabe estruturar muito bem isso.
gostei da sua resposta, me convenceu bastante
realmente, a parte dos projetos self hosted da uma dor de cabeça quando para de funcionar.

obrigado pela atenção e espero que seu projeto dê frutos.

1

Eu que agradeço. Com esse debate, pude realmente validar se estava realmente seguro em relação às minhas decisões e é sempre bom receber um feedback do que pode ser melhorado daqui para frente.

Obrigado por tudo!