Executando verificação de segurança...
3

Ensinando uma IA sobre bebês e vieses

Dois pontos, antes de iniciarmos:

  • O objetivo aqui não é "polemizar gratuitamente", ou bancar o "cético da IA", e nem mesmo ir à fundo sobre como algoritmos de ML são construidos, mas sim trazer à tona, de maneira simples um assunto que muitos já ouviram sobre, mas nunca pararam para ler sobre, encorajando o leitor a buscar textos que tratam desse assunto de maneira mais profunda.
  • Para deixar o texto o mais simples possível, considerei a ideia de um simples algoritmo que utiliza a base pública do google para aprender reconhecimento através de biometria. Óbviamente, em um ambiente "real", pode-se utilizar bases mais "seguras" para a criação de um software desse tipo.

Agora, vamos lá!

Imaginem só que resolvemos criar um algoritimo de Machine Learning para identificar bebês. E, para isso, precisamos expor esse algoritmo a uma quantidade gigantesca de fotos de bebês. Afinal, é assim que um algoritmo de Machine Learning – ou Aprendizado de Máquina – aprende: “lendo” muitos dados.

Para ter acesso a essa infinidade de dados, ou seja, de fotos de bebês, decidimos que o nosso algoritmo vai consultar a base pública de fotos do Google (e essa foi uma decisão arbitrária, poderíamos ter decidido ler fotos de qualquer outra base).

Sem entrar nos pormenores técnicos sobre como escrever um código de scrapping e coisas do tipo, vamos ao que interessa: o nosso algoritmo simplesmente acessou o Google Imagens e digitou “bebê” na busca. E olhem só o que veio:

Lendo apenas essa fonte de dados, o nosso algoritmo entenderia que uma das características imprescindíveis para ser um bebê seria ter a pele branca, exceto em raros casos.

De todas as imagens acima, encontrei pouquíssimos bebês pretos ou de outra etnia (asiáticos, árabes, indianos, etc...).

Então, para tentar corrigir o problema, poderíamos expor o nosso algoritmo ao resultado de buscas onde propositalmente nominamos a etnia dos bebês.

Mas ainda teríamos dois problemas aqui: o primeiro é que essa técnica já herdaria o nosso viés pessoal. Afinal, somos nós quem decidimos classificar os bebês como “indianos”, “asiáticos”, “pretos” e “indígenas”. Mas, quem garante que estas classificações são as mais assertivas? E quantas classificações deveríamos utilizar?

Quando utilizamos a classificação “bebês hispânicos”, isso inclui bebês nascidos na Espanha? E se “melhorarmos” para “bebês latinos”, isso incluiria os bebês brasileiros? E os surinamenhos (que, tecnicamente, não pertencem à América Latina, embora estejam na América do Sul), são latinos?

E o segundo problema pode ser observado quando buscamos por “bebês pretos”: o número de bebês trajando roupas pretas compete com o número de imagens de bebês pretos, de fato.

Quando digitamos “bebês indígenas”, o Google retornou imagens não apenas de bebês, mas de crianças mais crescidas.

E quando digitamos “bebês indianos”, o Google nos retornou um número consideravelmente grande de bebês com alguma deficiência (resultado que não foi retornado em nenhuma outra pesquisa orientada por etnia).

Talvez nosso algoritmo aprenda que qualquer bebê com deficiência é um bebê indiano. Problemático.

E as coisas só pioram. Se induzíssemos nosso algoritmo a procurar por “bebê bonito”, ele aprenderia que apenas bebês brancos o podem ser.

Os mais atentos e os mais informados sobre o assunto já perceberam que estamos lidando com um problema de (des)balanceamento de dados.

Uma forma simples (e talvez simplista) de resolver o problema seria “obrigar” o nosso algoritmo a “ler” a mesma quantidade de diferentes dados: 1000 fotos de bebês pretos, 1000 fotos de bebês brancos, etc... Mas, como disse anteriormente, ainda estamos ignorando o fato de que somos nós quem estamos classificando os dados para expô-los ao nosso algoritmo. E para realizar essa classificação, estamos considerando os nossos vieses. Logo, estamos ensinando à máquina a nossa visão de mundo, os nossos preconceitos. Estamos ensinando para as máquinas o que nós consideramos uma criança parda, ou preta, ou asiática, ou branca, ou etc.

Pode parecer um problema bobo para alguns, ou de fácil solução, dado o momento de desenvolvimento tecnológico que estamos vivendo. Mas se você já tentou validar a entrada em um app de banco e não conseguiu porque deixou a barba crescer, ou então por causa da sua cor de pele ou formato do olho ,como já aconteceu comigo inclusive, então você sabe que algoritmos com problemas semelhantes ao que descrevi aqui estão rodando em produção neste exato momento.

(Aliás, vale lembrar que quem decide o que é um “bebê bonito” quando digitamos isso no Google é o algoritmo do Google. Mais um caso a se estudar.)

Inteligência artificial é uma área maravilhosa, que nos faz sonhar com horizontes múltiplos, mas que também têm alguns pepinos difíceis de resolver. E é por isso que tecnologia é algo empolgante! E é por isso, também, que estamos muito longe de uma IA onisciente e que substitua humanos, pois ainda que humanos e IAs repitam padrões de preconceitos, as IAs não têm consciência disso.

  • Quem tiver bons textos ou cases sobre o assunto para indicar, fiquem a vontade!
Carregando publicação patrocinada...
3

Que post interessantíssimo! Treinamento de dados é quase sempre algo muito complicado. Certa vez eu queria treinar um modelo para reconhecer com qual roupa de time uma pessoa estava, primeiramente fiz só com 3 times e mesmo assim os resultados eram péssimos.

Isso porque eu fiz um sistema automatizado que buscava pessoa com camisa do xxxx no Google Images, só que junto com isso vinham escudos, fotos com camisas de cores diferentes, pessoas sem ligação com o time ou pessoas com camisas de outros times. Então acabou que eu desisti de fazer esse sistema mesmo, era só pra testes. 👍🏻

ah, sobre a publicação, você disse que o TabNews não tem suporte para imagens, mas na verdade ele não possui suporte para o upload de imagens gratuito. Então eu printei, hospedei no imgur e adicionei uma das imagens, a que eu considero mais essencial pro entendimento do post. O que achou?

1
3

Tem um caso bem conhecido que provavelmente todos que estudaram o assunto já ouviram falar. Se você resolve utilizar uma inteligência artificial para aumentar e diminuir o policiamento em diferentes regiões, ou mesmo para julgar crimes, o que você acha que a inteligência artificial fará? De forma geral, reforçará os extremos: se mais negros são presos, então devem ser "observados mais de perto", e se poucos brancos são presos, então não precisa gastar tanto recursos policiando brancos.

Eu busquei algumas referências sobre essa questão e encontrei as seguintes, em inglês:

1