Como usamos IA para revelar textos não vistos há dois milênios (de papiros carbonizados por um vulcão)
Aqui, vamos entender como nosso time, predominantemente brasileiro, usou Inteligência Artificial (ou, melhor, machine learning) para revelar textos inéditos de um papiro carbonizado há dois milênios e empatou em segundo lugar no Vesuvius Challenge, um desafio incrível que mostra um lado positivo dos avanços em IA! (Texto original)
Esta publicação tem como objetivo explicar os fundamentos da competição até aqui. Ela culminou nestas predições (dos primeiros colocados):
Começamos essa história no ano de 79 d.C. quando o vulcão Vesúvio entrou em erupção e enterrou uma vila da cidade Herculano (hoje, no sul da Itália); vila essa que possivelmente pertenceu ao padrasto de Júlio César.
Depois, em 1750, um fazendeiro reencontrou essa vila. Após algumas escavações, foram encontradas estátuas, pinturas e centenas de papiros carbonizados!!
São tantos papiros que lê-los significaria contribuir substancialmente com nosso conhecimento atual da Antiguidade. Quem sabe, talvez, um novo dialógo de Aristóteles!? Uma nova história épica de Homero!?
Porém, desenrolar fisicamente os papiros se mostrou uma tarefa praticamente impossível, visto que eles foram danificados severamente em todas as tentativas, como mostra a foto abaixo.
Então, um procedimento não invasivo para lê-los se mostrou necessário.
Em 2015, o Prof. Dr. Brent Seales mostrou que era possível desenrolar e reconstruir textos de papiros por meio de uma tomografia por Raios-X. Essa foi a base que tornou possível a leitura dos papiros em 2023.
Esse processo têm três etapas principais:
-
Escanear os papiros: fazer uma reconstrução digital do papiro a partir de uma tomografia computadorizada (feita por um acelerador de partículas!). (Vídeo ilustrativo)
-
Segmentação: desenrolar e planificar digitalmente o papiro. No fim desse processo, temos algo semelhante a uma folha de papel pintada com algo misterioso que queremos decifrar. (Vídeo ilustrativo)
-
Detecção de tinta: uma Inteligência Artificial (ou, melhor, um modelo de machine learning) aprende a detectar pequenos sinais de tinta nessas "folhas de papel", e, aos poucos, esses sinais formam as letras que compõem os textos. (Vídeo ilustrativo)
Contudo, os sinais da tinta de carbono são muito sutis na reconstrução tomográfica, o que dificultou o progresso do problema. Nisso, motivado a desvendar os textos perdidos, Nat Friedman entrou em contato com o Prof. Seales e, juntamente com Daniel Gross, criaram o Vesuvius Challenge na esperança da Internet resolver esse fantástico mistério.
Alguns meses depois do desafio ser lançado, Casey Handmer descobriu sinais claros de tinta; ele os chamou de "crackles".
Na figura, conseguimos ver claramente a letra π a partir dos crackles:
Isso mudou TUDO. Baseado nos crackles, Luke Farritor e Youssef Nader conseguiram treinar um modelo de machine learning (ou, uma IA) para identificá-los. Com isso, encontraram a primeira palavra até então: ΠΟΡΦΥΡΑϹ (porphyras), que significa "purple" em inglês.
O trabalho deles foi a inspiração para começarmos a treinar nossos próprios modelos e buscar textos ainda não revelados.
Com essa base, fomos descobrindo novas letras e aprimorando nossos modelos cada vez mais num processo iterativo.
O resultado disso é que, até agora, foi possível ler aproximadamente 5% de um pergaminho!! De acordo com os papirologistas, o texto trata de uma obra inédita de filosofia Epicurista e tem "prazer" como tema principal, relacionando-o à disponibilidade de bens.
O próximo objetivo é conseguir ler 90% desse pergaminho. Já o objetivo final é conseguir ler os mais de 800 pergaminhos já recuperados, além de continuar a escavação da vila para obter os que restam!
E aqui termina esse pequeno resumo do desafio até agora. Caso gostaram e queiram um post técnico, ficaria feliz em fazê-lo! Por enquanto, existe o repositório oficial da nossa submissão.
Claro, deixo o agradecimento ao time que dividiu esse segundo lugar comigo: Sean Johnson, Leonardo Scabini, Raí Fernando Dal Prá, João Vitor Brentigani Torezan, Daniel Baldin Franceschini, Bruno Pereira Kellm, Marcelo Soccol Gris, e Odemir Martinez Bruno. Também, ao SCG-IFSC (USP) e ao Vesuvius Challenge. Ser responsável por um projeto que, do começo ao fim, todos fizeram pelo puro prazer de fazê-lo me enche de alegria.