Harvard e Google lançam conjunto de domínio público para treinamento de IA
A Universidade de Harvard, em parceria com o Google, anunciou o lançamento de um conjunto de dados que reúne quase um milhão de livros de domínio público digitalizados pelo Google Books. O projeto, apoiado por financiamento da Microsoft e OpenAI, faz parte da recém-criada Institutional Data Initiative (IDI) e oferece um recurso valioso para desenvolvedores de grandes modelos de linguagem e ferramentas de IA.
O conjunto de dados abrange uma ampla variedade de gêneros, idiomas e épocas, incluindo obras de autores como Shakespeare e Dante, além de materiais de nicho, como livros didáticos de matemática tchecos e dicionários galeses.
Greg Leppert, diretor executivo da IDI, destaca que o projeto oferece acesso a conteúdo cuidadosamente elaborado, tradicionalmente restrito a grandes empresas de tecnologia. Segundo Leppert, o conjunto de dados passou por uma revisão rigorosa para assegurar qualidade e usabilidade, e ele acredita que a iniciativa poderá desempenhar um papel tão fundamental para o desenvolvimento de IA quanto o Linux para os ecossistemas globais de software.
Embora empresas continuem precisando de dados adicionais para diferenciação competitiva, o conjunto de dados representa um ponto de partida robusto para pesquisadores individuais e novos participantes da indústria de IA. Além dos livros, a IDI planeja digitalizar milhões de artigos de jornais de domínio público em parceria com a Biblioteca Pública de Boston.
Especialistas avaliam que esses conjuntos de dados desafiam diretamente a ideia de que a coleta de dados protegidos por direitos autorais é indispensável para a construção de modelos de IA.