Wikipédia anuncia conjunto de dados otimizados para scrapers de IA
A iniciativa tem como objetivo desencorajar empresas de tecnologia a realizarem scraping direto e massivo da plataforma, prática que tem gerado sobrecarga nos servidores.
Para viabilizar o projeto, a Wikimedia Foundation firmou uma parceria com a Kaggle, plataforma de ciência de dados mantida pelo Google, disponibilizando uma versão beta do conjunto de dados com conteúdo da Wikipédia em inglês e francês.
Segundo a Wikimedia, o material foi estruturado para facilitar o uso em tarefas de machine learning, como modelagem, ajuste fino, benchmarking, alinhamento e análise, oferecendo dados legíveis por máquinas de forma eficiente.
O pacote, licenciado de forma aberta, inclui — até o dia 15 de abril — resumos de pesquisa, descrições curtas, links de imagens, dados de infobox e seções de artigos. Referências e elementos não textuais, como arquivos de áudio, não fazem parte deste conjunto.