Executando verificação de segurança...
3

Quero criar uma ferramenta ou aplicativo que transcreve áudios.

Possuo uma deficiência auditiva nas duas orelhas. Eu escuto devido aos implantes cocleares, mas não chega no nível de uma pessoa ouvinte.

Com isso, eu prefiro estudar lendo, mas tem muito conteúdo sendo em forma de vídeos (sem legenda) ou podcast e pouco em forma de texto.

Caso existe uma ferramenta ou aplicativo para isso, escreve para mim por favor.
Se não existe, quero construir uma ferramenta ou aplicativo, mas não faço ideia como fazer isso.

Caso você tenha curiosidade da minha deficiência, pode perguntar para mim a vontade.

Carregando publicação patrocinada...
2

No próprio windows tem uma ferramenta de legendas em tempo real com o que esta sendo "ouvido" no computador. Recomendo uma breve pesquisa sobre.

2

Posso sugerir o Whisper, é um modelo de reconhecimento de áudio e transcrição open source criado pela OpenAI (responsável pelo ChatGPT), a ferramenta de linha de comando até gera um SRT já sincronizado que pode ser usado. Só tem um detalhe: Acredito que você teria que extrair o áudio dos vídeos, não sei se ele aceita vídeo como input, outra coisa é que o tempo para fazer a transcrição demora um pouco se você não usar uma placa de vídeo.

Recomendo o modelo medium, nos meus testes ele se mostrou o mais assertivo no reconhecimento.

Vantagens:

  • Gratuito
  • Permite usar a ferramenta pronta ou importar em código e customizar

Desvantagens:

  • Quanto maior o modelo, mais memório de vídeo (caso GPU) ou RAM para conseguir rodar

Espero que seja útil!

2
2
2

Opa, pelo que entendi (e me desculpe se falar besteira), ela não tem deficiência na audição, então seria o speech to text, que transcreveria a fala em texto.
Infelizmente não conheço nenhuma ferramenta que faça isso, porém acredito que existam sim algumas opções.
Mas pra implementar uma própria, eu já testei o serviço da azure, e funcionou bem.

1
2
1