Sistema de transcrição de fala da OpenAI inventa palavras que não foram ditas, segundo pesquisadores · NewsletterOficial

Embora promovido como uma ferramenta robusta e precisa, o Whisper apresenta uma tendência preocupante de “inventar” partes ou frases inteiras nas transcrições. Entrevistas com engenheiros e pesquisadores indicam que essas “invenções” podem variar de comentários inadequados a tratamentos médicos fictícios, gerando sérios riscos para setores que exigem precisão. Embora a OpenAI já alerte contra o uso do Whisper em áreas de “alto risco”, hospitais e clínicas têm adotado a ferramenta para transcrição de consultas médicas, o que gera preocupação entre especialistas. Em contextos críticos, erros ou informações falsas nas transcrições podem induzir a diagnósticos incorretos e comprometer o atendimento a pacientes.

Em uma análise conduzida por pesquisadores, foi identificada uma alta taxa de alucinações nas transcrições, com 80% dos casos contendo informações inventadas. Em outro estudo, um engenheiro de aprendizado de máquina encontrou invenções em 50% das mais de 100 horas de áudio analisadas, mesmo em gravações curtas e de boa qualidade. Os erros foram observados em situações com pausas, ruídos de fundo e até música, e, em 40% desses casos, o conteúdo inventado tinha potencial prejudicial, como interpretações errôneas sobre o locutor. Em um exemplo, o termo fictício “terror knife” foi adicionado, alterando o tom da transcrição para algo violento; em outro caso, um medicamento fictício chamado “antibiótico hiperativado” foi “prescrito”, o que poderia induzir a um erro médico.

A OpenAI afirma estar investindo na redução dessas alucinações e integrando feedback contínuo em atualizações do modelo. Em usos mais comuns, o Whisper é aplicado na criação de legendas para surdos e transcrição de interações em assistentes virtuais. Em plataformas como HuggingFace, uma versão recente do Whisper foi baixada mais de 4,2 milhões de vezes em um único mês.