Já vi uma solução que era mais ou menos o seguinte:
O corretor era uma série de testes unitários (a maioria era com React Testing Library ou Cypress, pq eram projetos de front-end). O código da pessoa tinha que seguir alguns padrões, por exemplo ter um data-testid específico.
Aí o corretor era um script que rodava os testes unitários e gerava um JSON falando se a pessoa passou ou não no requisito. Tudo isso rodava em uma Github Action na hora que a pessoa abria um Pull Request no GitHub.
Era legal, mas o principal defeito é que você tem que limitar muitas coisas. O código da pessoa tem que ter um certo padrão pra corrigir certo.