Posso sugerir o Whisper, é um modelo de reconhecimento de áudio e transcrição open source criado pela OpenAI (responsável pelo ChatGPT), a ferramenta de linha de comando até gera um SRT já sincronizado que pode ser usado. Só tem um detalhe: Acredito que você teria que extrair o áudio dos vídeos, não sei se ele aceita vídeo como input, outra coisa é que o tempo para fazer a transcrição demora um pouco se você não usar uma placa de vídeo.
Recomendo o modelo medium
, nos meus testes ele se mostrou o mais assertivo no reconhecimento.
Vantagens:
- Gratuito
- Permite usar a ferramenta pronta ou importar em código e customizar
Desvantagens:
- Quanto maior o modelo, mais memório de vídeo (caso GPU) ou RAM para conseguir rodar
Espero que seja útil!