Executando verificação de segurança...
3

Reddit decide bloquear todos mecanismos de busca, com exceção do Google, por “uso indevido” de seu conteúdo

A plataforma atualizou seu arquivo “robots.txt” para impedir que bots acessem partes do site, devido ao aumento do uso comercial de suas informações por terceiros, especialmente para o treinamento de IA. A decisão afeta motores de busca como Bing e DuckDuckGo, que passarão a exibir resultados incompletos ou desatualizados. Em fevereiro deste ano, o Google fechou um acordo de 60 milhões de dólares com o Reddit para utilizar seus dados no treinamento de modelos e mecanismos de busca. As informações são do site 9to5Google.

Carregando publicação patrocinada...
3
4

Sem alguma contrapartida, não vejo razão para fornecer os dados do TabNews exclusivamente para uma ou outra empresa. Apenas se houver uma contrapartida que seja vantajosa principalmente para os criadores de conteúdos.

O Google já fez alguma proposta? 🚀🤩

Já o contrário, impedir uma ou outra empresa de raspar nossos dados, pode valer a pena se não concordarmos com o que a empresa faz com eles, ou se a raspagem não é feita com o cuidado de não impactar significativamente no uso dos nossos recursos.

Sobre o último ponto, já precisei bloquear pela Cloudflare algumas redes usadas para raspagem e que estavam abusando nas requisições continuamente.

De qualquer forma, acho importante a discussão sobre como deveríamos configurar nosso robots.txt.

5

Exatamente!

Em primeiro passo devemos separar o que é tráfego prejudicial e o que tráfego benéfico ou neutro.

Se alguma ferramenta estiver abusando do site deve ser bloqueada ASAP.

Agora se só tiver fazendo algum treinamento ou indexação que não atrapalhe o bom funcionamento do TabNews não vejos problema algum