Webscraping com BeautifulSoup
A muito tempo, já tenho trabalhado em alguns projetos de WebScraping utilizando o Selenium webdriver em que tem como grande poder, simular ações humanas no navegador.
Recentemente passei a estudar BeautifulSoup do #python onde também é muito utilizado para WebScraping mas com uma abordagem diferente, utilizando-se do texto html da pagina para fazer a extração de dados. Achei muito interessante e fiz um primeiro projeto com isso, não somente utilizando o BeautifulSoup, como o lxml que ajuda e muito a fazer buscas no html utilizando o xPath.
Resumidamente o projeto consiste em consultar uma base de livros do site companhia das letras, e realizar a extração dos dados como titulo, preço, quantidade de paginas, formato... No final da execução, os dados são salvos em formato .csv
As informações que tirei para fazer o programa são do próprio site, ou seja, as informações que são carregadas para qualquer usuario, não fazendo o uso de senhas ou acessos especiais para conseguir acesso.
Abaixo deixo o programa no repositório do github caso queira dar uma olhada no projeto.
https://github.com/ParzivalMarcos/scrapingBeautifulSoupExample