Pesquisadores da Meta AI desenvolvem maneiras de ler a fala no cérebro humano
Pesquisadores do Facebook AI Research Labs, da Meta Platform Inc., desenvolveram um modelo de IA capaz de decodificar a fala a partir de gravações não invasivas da atividade cerebral.
Segundo a equipe, esse tem sido um objetivo de longa data para neurocientistas e clínicos, mas a maior parte dos progressos feitos até então dependia de técnicas invasivas - como abrir o crânio e colocar eletrodos diretamente no cérebro.
Ainda que exames comuns (como ressonância magnética e tomografia computadorizada) produzam imagens detalhadas do cérebro, eles mostram estruturas em vez de atividade.
Técnicas não invasivas, como eletroencefalograma (EEG) e magnetoencefalografia (MEG), podem escanear o cérebro do lado de fora e observar a atividade sem qualquer cirurgia. Porém, não oferecem uma visão muito clara do que está acontecendo, já que os registros obtidos tendem a conter muitos ruídos.
Por isso, embora sejam úteis para o diagnóstico de lesões, não é possível usá-las para determinar atividades cerebrais específicas e diferenciadas - como identificar se uma pessoa está pensando em dizer a palavra “gato”.
Para solucionar o problema, os pesquisadores recorreram a algoritmos de aprendizado de máquina, com um modelo chamado wave2vec 2.0.
Primeiramente, eles encarregaram a ferramenta com quatro gravações de EEG e MEG de código aberto, consistindo em 150 horas de 169 voluntários saudáveis ouvindo audiolivros e frases isoladas em inglês e em holandês.
Essas gravações então se tornaram o conjunto de treinamento para o modelo - usado para melhorar sua capacidade de selecionar palavras em potencial que um indivíduo poderia ter ouvido.
Com um trecho de atividade cerebral, o algoritmo é capaz de determinar, dentre um grande conjunto de novos clipes de áudio, qual a pessoa realmente ouviu. E, a partir daí, consegue concluir quais palavras provavelmente foram ouvidas.
Os pesquisadores acharam isso encorajador porque mostra que a IA pode ser treinada para aprender a decodificar gravações ruidosas e variáveis da atividade cerebral a partir da fala percebida. O próximo passo é ver se isso pode ser estendido à atividade cerebral sem o conjunto de clipes de áudio.
Futuramente, essa tecnologia poderia ser usada para ajudar pessoas que sofreram lesões neurológicas traumáticas que as deixaram incapazes de se comunicar por meio de fala, digitação ou gestos.