Artista encontra fotos privadas de registros médicos em conjunto de dados de treinamento de IAs
Uma artista de IA da Califórnia, que atende pelo nome de Lapine, descobriu recentemente que fotos suas de registros médicos particulares estão presentes no conjunto de imagens LAION-5B - um local onde é possível encontrar imagens publicamente disponíveis na web.
Pesquisadores de IA costumam baixar um subconjunto desses dados para treinar modelos de síntese de imagens de IA, como Stable Diffusion e Google Imagens.
Lapine teve conhecimento disso ao fazer uma busca em um site chamado Have I Been Trained, que permite que artistas vejam se seu trabalho está presente no conjunto de dados LAION-5B.
Em vez de fazer uma pesquisa em texto, Lapine enviou uma foto recente de si mesma usando o recurso de pesquisa reversa de imagens do site. Ela ficou surpresa ao descobrir duas fotos médicas de estilo “antes e depois” de seu rosto, que só haviam sido autorizadas para uso privado por seu médico.
Lapine tem uma condição genética chamada Disceratose Congênita. Em uma entrevista para a Ars Technica, ela informou que as fotos dizem respeito ao último conjunto de procedimentos cirúrgicos que ela fez em 2013, com o objetivo de restaurar o contorno facial depois de passar por tantas cirurgias de boca e mandíbula.
O cirurgião que possuía suas fotos morreu de câncer em 2018 e a artista suspeita que alguém teve acesso a esses arquivos e eles acabaram em algum lugar online, onde então foram gravados na LAION-5B.
Ainda que isso não signifique que é possível criar uma versão de IA do rosto de Lapine - e que seu nome não esteja vinculado às fotos -, é preocupante que imagens médicas privadas tenham sido incorporadas a um produto sem qualquer forma de consentimento ou recurso para removê-las.
Como a LAION é um conjunto de URLs que direcionam para imagens na web, ela não hospeda as imagens em si. Sob essas condições, não é possível apontar um responsável pela inclusão de uma determinada imagem.
O conjunto de dados LAION está repleto de imagens potencialmente confidenciais coletadas da internet. As tarjas pretas foram adicionadas pela Ars Technica.
Nos EUA, a extração de dados publicamente disponíveis na internet parece ser legalizada.
Para cumprir com as leis GDPR da União Europeia, o site da LAION fornece um formulário onde cidadãos europeus podem solicitar que informações sejam removidas de seu banco de dados, mas somente se a foto de uma pessoa estiver associada a um nome nos metadados da imagem.