Executando verificação de segurança...
5

Desenvolvedores criam ferramentas para combater coleta de dados por IAs que ignoram “robots.txt”

Essa abordagem é chamada de “tarpitting”, e está sendo utilizada para dificultar a ação de rastreadores de IA que ignoram as instruções do arquivo robots.txt, que define quais partes de um site podem ou não ser acessadas por bots. Originalmente, ela foi usada para dificultar a atuação de spammers.

Um desenvolvedor anônimo, identificado como Aaron, criou o Nepenthes, um software inspirado em plantas carnívoras que funciona como uma armadilha digital. A ferramenta engana rastreadores de IA, direcionando-os para um labirinto infinito de páginas falsas, onde podem ficar presos por meses, consumindo recursos computacionais sem obter dados úteis. Além disso, o Nepenthes pode gerar informações sem sentido, comprometendo a qualidade dos modelos de IA que utilizam esses dados para treinamento.

Aaron reconhece que o Nepenthes é uma abordagem agressiva, projetada para punir bots que desrespeitam as diretrizes do robots.txt e aumentar os custos operacionais das empresas de IA. Seu objetivo, segundo ele, não é interromper o avanço da IA, mas dificultar o desenvolvimento de uma tecnologia que, em sua visão, está degradando a internet.

A iniciativa inspirou outros desenvolvedores a criarem ferramentas semelhantes. Um exemplo é a “locaine”, criada por Gergely Nagy, que utiliza um método parecido para envenenar modelos de IA. Segundo Nagy, sua ferramenta reduziu em 94% o tráfego de bots em seu site.

No entanto, especialistas alertam que essas soluções podem não ser sustentáveis a longo prazo. Empresas de IA já investem em mecanismos para detectar e contornar tentativas de envenenamento de dados. Além disso, rodar um sistema de tarpitting pode gerar custos elevados para alguns servidores, e estratégias como essa podem acabar impactando iniciativas governamentais que utilizam IA para fins sociais, por exemplo.

Carregando publicação patrocinada...
2

Criativa a solução. Mas acho que não será tão eficaz. Nós devs sabemos que pra tudo tem um jeitinho de burlar qualquer proteção. Me lembra star trek:

"We are the Big-Tech. Lower your captchas and surrender your server. We will add your content to our own. Your tech-stack will adapt to service us. Resistance is futile."