Desenvolvedores de projetos open-source enfrentam sobrecarga de tráfego causada por crawlers
Projetos de código aberto estão sendo impactados pelo tráfego massivo gerado por crawlers de IA, que coletam dados para treinar modelos. Esses bots acessam repositórios como usuários legítimos, mas em volumes elevados, comprometendo a estabilidade e disponibilidade dos serviços.
Mesmo com medidas defensivas, como bloqueio de user-agents específicos, ajustes no arquivo robots.txt e filtragem de tráfego suspeito, desenvolvedores relatam que os bots se adaptam rapidamente, alterando identificadores e utilizando redes de IPs residenciais para ocultar sua origem. Em resposta, um desenvolvedor criou a ferramenta “Anubis”, que exige a resolução de um desafio computacional antes de permitir o acesso ao site. No entanto, essa solução também impacta usuários legítimos, especialmente em dispositivos móveis, onde o tempo de espera pode chegar a dois minutos.
Estima-se que até 97% do tráfego em alguns projetos open-source provém de bots de IA. Alguns casos incluem o Fedora Pagure, que precisou bloquear o tráfego do Brasil para mitigar o problema, além dos repositórios GNOME GitLab e KDE GitLab.
Os bots não apenas acessam páginas comuns, mas também endpoints de alto custo computacional, como logs completos de commits, aumentando significativamente a demanda sobre os servidores.
Muitos ignoram diretrizes estabelecidas, simulam navegadores legítimos e realizam buscas frequentes para manter seus sistemas atualizados. O responsável pela infraestrutura da rede social Diaspora relata que bots de IA acessam a mesma página a cada seis horas, gerando um consumo contínuo de tráfego sem justificativa aparente.
Entre as empresas responsáveis por esse tráfego destacam-se OpenAI (25%), Amazon (15%) e Anthropic (4,3%). Enquanto algumas dessas empresas identificam seus bots corretamente, outras, especialmente certas companhias chinesas, disfarçam sua identidade.