Posso sugerir o [Whisper](https://github.com/openai/whisper), é um modelo de reconhecimento de áudio e transcrição open source criado pela OpenAI (responsável pelo ChatGPT), a ferramenta de linha de comando até gera um SRT já sincronizado que pode ser usado. Só tem um detalhe: Acredito que você teria que extrair o áudio dos vídeos, não sei se ele aceita vídeo como input, outra coisa é que o tempo para fazer a transcrição demora um pouco se você não usar uma placa de vídeo.

Recomendo o modelo `medium`, nos meus testes ele se mostrou o mais assertivo no reconhecimento.

Vantagens:
- Gratuito
- Permite usar a ferramenta pronta ou importar em código e customizar

Desvantagens:
- Quanto maior o modelo, mais memório de vídeo (caso GPU) ou RAM para conseguir rodar


Espero que seja útil!

Posso sugerir o Whisper, é um modelo de reconhecimento de áudio e transcrição open source criado pela OpenAI (responsável pelo ChatGPT), a ferramenta de linha de comando até gera um SRT j...