Muito daora a ferramenta mano, estou iniciando na area, poderia me dar um caminho de como posso começar em um projeto de crawling? oque estudar, quais tecnologias\ferramentas usar?
agradeço desde já, parabens!
claro, sugiro voce dar uma lida sobre como funciona o processo de crawling, basicamente é um browser simulando açoes, inicialmente o crawler nasceu como uma automaçao para testes - Simular usuarios reais pra ver se tudo ocorre como o planejado, acontece que as pessoas viram a possibilidade de extrair dados e surgiu o webcrawling.
No passado existiam algumas libs como phantomJS mas a maioria acabou morrendo com o nascimento do google chrome, a google mantinha o pupeter, um dos frameworks mais famosos de web crawling usando o chrome como navegador por trás.
a microsoft viu o sucesso do pupeter e decidiu criar o playwright, ela contratou toda equipe do pupeter e está investindo pesado no playwright, a diferença entre o pupeter e o playwright é que o playwright roda no safari e firefox, entao é como se fosse uma versao mais parruda do pupeter.
sugiro voce começar com o playwright, é exatamente ele que uso neste projeto, pode começar com o basico tipo abrindo uma pagina e extraindo titulo das paginas, com o tempo voce vai pegando a malicia e escalabilidade, por exemplo se voce acessar o mesmo site 10 vezes por segundo provavelmente seu IP será banido, entao necessitará usar um proxy rotativo pra mudar seu IP a cada requisiçao, outra maneira legal é alterar o user agent, resoluçao da tela e simular um fingerprint de usuario real, vale tudo pra mostrar pro site que voce é realmente um usuario..
acho que com esse overview voce consegue começar na area de crawling, sucesso e boa sorte!