Já vi alguns casos estranhos enquanto ajeitava o banco de dados. Já vi deputado estourando a cota também. Fora casos onde o cnpj numa despesa não condizia ao fornecedor dela. São mais de 5 milhões de despesas (contando baixo), com certeza tem algo ali.
No entanto, para isso, existe também a operação Serenata do Amor em que eles empregam o uso de machine learning para encontrar gastos suspeitos, vale apena olhar: https://serenata.ai
Eu quero sim fazer um algoritmo para pegar casos suspeitos, é difícil fazer pois os dados não tem uma constância, um padrão para seguir.
Por exemplo, a pesquisa de fornecedores, eu precisei pegar todas as variações do nome de um fornecedor pelo cnpj, assim a api chega nos que não têm cnpj informado, e só a GOL, há mais de 211 variações de nome.
Eu vou sim desenvolver algoritmos para achar irregularidades nos gastos e escancarar no site. Só preciso de mais tempo para analisar certinho o conjunto de dados e entender ele.
Outro exemplo de como os dados são inconstantes e incompletos, no arquivo json dos deputados da câmara, não tem o partido deles! Eu precisei montar uma query para pesquisar na tabela de despesas cada deputado e achar os partidos por lá.