🎲🛠️ [Data Tools] - Ferramenta para trabalhar com Dados [Projeto GitHub] - [em desenvolvimento]
Olá gente, trabalho como engenheiro de dados a aproximadamente 1 ano e meio, mas sempre tive um pézinho em várias áreas de TI, inclusive na área de desenvolvimento web.
⚠️ Nota: vou atualizar esse post com uma certa frequência
A motivação pra criar o projeto
Esse projeto é um sonho que eu sempre tive de implementar algo útil para a comunidade dev e que fosse algo prático para pessoas sem conhecimento técnico, mas até então não tinha muita ideia do que fazer e que realmente pudesse agregar valor para a comunidade dessa forma.
O projeto se iniciou devido a uma grande dor encontrei na área de dados das empresas que trabalhei: coletar, tratar e visualizar dados de forma rápida!
Sempre que eu precisava coletar dados de um site ou precisava conectar com uma API de terceiro para baixar dados era aquele trabalho repetitivo de criar e recriar a roda diversas vezes para chegar em um resultado parecido, mas com fontes de dados totalmente diversas.
Dado isso, resolvi criar uma biblioteca para ser um "toolkit" para trabalhar com dados, e a ideia desse kit de ferramentas é não só extrair dados externos, mas também facilitar a visualização e pós processamento desses dados, seja propondo gráficos de forma inteligente com base nos dados ou seja sugerindo um modelo matemático para encontrar padrões nesses dados.
De qualquer forma, a ideia do projeto foi crescendo e crescendo e hoje o objetivo é não só fazer um toolkit para pessoas técnicas, mas sim evoluir isso e criar uma ferramenta para que pessoas leigas possam ter acesso a mais dados de forma desburocratizada.
[ATUALIZAÇÃO 25/11/2022 20:20]
Funcionalidade extra II
Agora temos uma calculadora de expressões aritméticas!
Links úteis
Demonstração da primeira versão do site: http://datatools.jvmsolutions.tech/
GitHub com instruções de instalação: https://github.com/aureliowozhiak/data_collection_tools
Funcionalidades já implementadas
Extração de dados (em desenvolvimento)
Nessa página, a idéia é você passar a url de uma página HTML e o Data Tools irá retornar diversos dados e informações relevantes sobre o conteúdo da página.
⚠️ Por enquanto a ferramenta só retorna o título da página informada com uma lista de todos os links encontrados dentro dessa página, mas a idéia é ter um mini relatório de dados extraído de forma automática! ⚠️
http://datatools.jvmsolutions.tech/tools/web_scraping/
Extração de tabelas HTML
Essa funcionalidade é simples, você informa uma URL, de um site que contenha uma ou mais tabelas em HTML, e passa a "posição" da tabela na página, e o retorno é essa tabela carregada dentro do Data Tools, junto de um botão para download em formato CSV:
http://datatools.jvmsolutions.tech/tools/table_scraping/
Funcionalidade extra
Inspirado no post: Seu portifólio/blog a partir da API do TabNews, implementei um blog super simples, com lista dos meus posts + visualização de um post em aba separada: http://datatools.jvmsolutions.tech/blog/
Fiquem a vontade para darem ideias, ajudarem com o projeto no GitHub e compartilharem o projeto com aquele seu colega de trabalho que precisa extrair dados de um site e tá com dificuldade 😁