Tem também o Whisper, que faz transcrição de áudios.
Aqui tem uma análise e tutorial de instalação e uso. Segundo este mesmo link, o que dá pra fazer com ele:
- Transcrever para texto um arquivo em áudio
- Transcrever para texto em um idioma um arquivo em áudio em outro idioma
- Criar um arquivo .srt de legendas com base em um áudio
- Criar um arquivo .srt de legendas traduzidas com base em um áudio
- Implementar um assistente de voz rodando no seu PC
- Transcrever áudio em tempo real direto do microfone
- Transcrever e traduzir áudio em tempo real direto do microfone