Executando verificação de segurança...
4

claro, sugiro voce dar uma lida sobre como funciona o processo de crawling, basicamente é um browser simulando açoes, inicialmente o crawler nasceu como uma automaçao para testes - Simular usuarios reais pra ver se tudo ocorre como o planejado, acontece que as pessoas viram a possibilidade de extrair dados e surgiu o webcrawling.

No passado existiam algumas libs como phantomJS mas a maioria acabou morrendo com o nascimento do google chrome, a google mantinha o pupeter, um dos frameworks mais famosos de web crawling usando o chrome como navegador por trás.

a microsoft viu o sucesso do pupeter e decidiu criar o playwright, ela contratou toda equipe do pupeter e está investindo pesado no playwright, a diferença entre o pupeter e o playwright é que o playwright roda no safari e firefox, entao é como se fosse uma versao mais parruda do pupeter.

sugiro voce começar com o playwright, é exatamente ele que uso neste projeto, pode começar com o basico tipo abrindo uma pagina e extraindo titulo das paginas, com o tempo voce vai pegando a malicia e escalabilidade, por exemplo se voce acessar o mesmo site 10 vezes por segundo provavelmente seu IP será banido, entao necessitará usar um proxy rotativo pra mudar seu IP a cada requisiçao, outra maneira legal é alterar o user agent, resoluçao da tela e simular um fingerprint de usuario real, vale tudo pra mostrar pro site que voce é realmente um usuario..

acho que com esse overview voce consegue começar na area de crawling, sucesso e boa sorte!

Carregando publicação patrocinada...