Brincando com Python, desenvolvi uma api simples com Flask e o modelo de transcrições de áudio e vídeo Whisper (Modelo oficial da OpenAI)
Tirei um tempo no dia de hoje para estudar os modelos de inteligência artifical da OpenAI. Acabei me deparando com um repositório oficial deles que é do Whisper, o modelo de IA que executa a leitura de áudios para fazer interpretação da fala e converter em transcrições (speech to text).
O Whisper tem uma API que é paga na OpenAI, porém eles liberam o modelo para implementações individuais. Inclusive essa API e seu modelo são capazes de entender qual a linguagem que está sendo falada para transcrever com base nisso.
Utilizei a FFMPEG para fazer uma conversão simples de áudio antes de usar o modelo de transcrições, que após concluír, remove os arquivos salvos e devolve a transcrição na resposta da API.
Liberei o código no repositório https://github.com/brocchirodrigo/RWhisper para quem quiser dar uma olhada.
Só um detalhe, faz literalmente MUITO tempo que eu não faço nada em Python (codo em JS/TS), então não está tão limpo, ou mesmo performático, mas é funcional e os detalhes de utilização estão descritos no repositório.
Achei interessante explorar esse mecanismo para avaliar se existe uma oportunidade diferencial ao invés de usar a API oficial da OpenAI, e me pareceu bem ok, porém, não dá para negar que exige muito processamento. Acrescento inclusive que esse excesso de processamento mesmo na minha máquina que é um desktop gamer, ainda assim nos modelos mais pesados leva bastante tempo para executar a tarefa, enquanto no modelo base, consegui retornar o resultado entre 30 e 50 segundos.