3,1 milhões de estrelas falsas foram usadas para aumentar popularidade de repositórios maliciosos no GitHub
Pesquisadores utilizaram uma ferramenta chamada StarScout para analisar 20 TB de dados do GHArchive e identificar estrelas não autênticas em repositórios do GitHub. O GHArchive contém metadados de mais de 6 bilhões de eventos no GitHub, abrangendo o período de julho de 2019 a outubro de 2024, incluindo 60,5 milhões de ações de usuários em 310 milhões de repositórios e 610 milhões de estrelas.
O StarScout detecta atividades atípicas de usuários com pouca ou nenhuma interação no GitHub, como marcar apenas um repositório como favorito ou favoritar vários repositórios em curtos intervalos de tempo. Após processar os dados com algoritmos que analisam baixa atividade e padrões suspeitos, os pesquisadores identificaram 4,5 milhões de estrelas suspeitas, atribuídas a 1,3 milhão de contas em quase 23 mil repositórios. Para refinar os resultados e evitar falsos positivos, foram considerados apenas repositórios com picos anômalos de atividade estelar em um único mês e com mais de 10% de estrelas falsas em relação ao total. Após essa filtragem, o número foi reduzido para 3,1 milhões de estrelas inautênticas, geradas por 278 mil contas, afetando mais de 15 mil repositórios.
Os dados mostram que cerca de 91% dos repositórios e 62% das contas suspeitas foram excluídos em outubro de 2024, reforçando a precisão da ferramenta StarScout. O estudo também indica um aumento na atividade de estrelas falsas em 2024, com aproximadamente 15,8% dos repositórios com mais de 50 estrelas em julho de 2024 participando de campanhas maliciosas.
Os pesquisadores reportaram ao GitHub os repositórios e contas suspeitos identificados pelo StarScout em julho de 2024, levando à remoção de todos os itens relatados. Atualmente, a equipe ainda está avaliando e reportando novos clusters encontrados em novembro de 2024.