Oi Luisa, caso não encontre uma ferramenta para utilizar e queira realmente criar a sua própria ferramenta o nome da tecnologia que você precisa comumente é chamada de "Speech to Text" e está presente na maioria dos serviços cloud.
Por exemplo, o da AWS seria o Amazon Transcribe: https://aws.amazon.com/pt/transcribe/ | https://aws.amazon.com/what-is/speech-to-text/