Meta teria feito torrent de pelo menos 81,7 terabytes de dados para treinar modelo Llama
Novas evidências indicam que a Meta baixou, via torrent, pelo menos 81,7 terabytes de dados de bibliotecas paralelas para treinar seu modelo de IA Llama. Entre esses dados, estão pelo menos 35,7 terabytes provenientes da Z-Library e do LibGen, obtidos por meio do site Anna’s Archive, conforme revelado em um processo judicial. Em janeiro, a empresa já havia admitido ter baixado um grande conjunto de dados do LibGen, que inclui milhões de livros pirateados.
Os autores do processo classificam a prática como um “esquema ilegal de torrents” de magnitude “surpreendente”. Em e-mails internos tornados públicos, um engenheiro de pesquisa da Meta expressou desconforto com os possíveis riscos legais, afirmando que baixar torrents em um notebook corporativo “não parece certo”. Ele também demonstrou preocupação com o uso de endereços IP da empresa para carregar conteúdo pirata. Esse funcionário chegou a consultar a equipe jurídica da Meta e destacou, em um e-mail, que o uso de torrents implicaria na propagação dos arquivos, tornando o conteúdo acessível externamente, o que poderia ser “legalmente inaceitável”.
O processo alega que esses e-mails comprovam que a Meta tinha ciência da ilegalidade da prática e, ainda assim, decidiu ocultar seu uso de torrents. Para evitar rastreamento, a empresa supostamente baixou os arquivos sem utilizar servidores do Facebook e ajustou as configurações para minimizar o número de dispositivos que semeassem os arquivos.
A Meta, por sua vez, defende que os dados do LibGen são de “uso justo” e afirma que pretende “esclarecer os fatos” e “desmascarar” as alegações, que considera “infundadas”, durante o julgamento sumário.