Brincando com Python, desenvolvi uma api simples com Flask e o modelo de transcrições de áudio e vídeo Whisper (Modelo oficial da OpenAI) · rbrocchi

Tirei um tempo no dia de hoje para estudar os modelos de inteligência artifical da OpenAI. Acabei me deparando com um repositório oficial deles que é do Whisper, o modelo de IA que executa a leitura de áudios para fazer interpretação da fala e converter em transcrições (speech to text).

O Whisper tem uma API que é paga na OpenAI, porém eles liberam o modelo para implementações individuais. Inclusive essa API e seu modelo são capazes de entender qual a linguagem que está sendo falada para transcrever com base nisso.

Utilizei a FFMPEG para fazer uma conversão simples de áudio antes de usar o modelo de transcrições, que após concluír, remove os arquivos salvos e devolve a transcrição na resposta da API.

Liberei o código no repositório https://github.com/brocchirodrigo/RWhisper para quem quiser dar uma olhada.

Só um detalhe, faz literalmente MUITO tempo que eu não faço nada em Python (codo em JS/TS), então não está tão limpo, ou mesmo performático, mas é funcional e os detalhes de utilização estão descritos no repositório.

Achei interessante explorar esse mecanismo para avaliar se existe uma oportunidade diferencial ao invés de usar a API oficial da OpenAI, e me pareceu bem ok, porém, não dá para negar que exige muito processamento. Acrescento inclusive que esse excesso de processamento mesmo na minha máquina que é um desktop gamer, ainda assim nos modelos mais pesados leva bastante tempo para executar a tarefa, enquanto no modelo base, consegui retornar o resultado entre 30 e 50 segundos.