Executando verificação de segurança...
18

🎲🛠️ [Data Tools] - Ferramenta para trabalhar com Dados [Projeto GitHub] - [em desenvolvimento]

Olá gente, trabalho como engenheiro de dados a aproximadamente 1 ano e meio, mas sempre tive um pézinho em várias áreas de TI, inclusive na área de desenvolvimento web.
⚠️ Nota: vou atualizar esse post com uma certa frequência

A motivação pra criar o projeto

Esse projeto é um sonho que eu sempre tive de implementar algo útil para a comunidade dev e que fosse algo prático para pessoas sem conhecimento técnico, mas até então não tinha muita ideia do que fazer e que realmente pudesse agregar valor para a comunidade dessa forma.

O projeto se iniciou devido a uma grande dor encontrei na área de dados das empresas que trabalhei: coletar, tratar e visualizar dados de forma rápida!

Sempre que eu precisava coletar dados de um site ou precisava conectar com uma API de terceiro para baixar dados era aquele trabalho repetitivo de criar e recriar a roda diversas vezes para chegar em um resultado parecido, mas com fontes de dados totalmente diversas.

Dado isso, resolvi criar uma biblioteca para ser um "toolkit" para trabalhar com dados, e a ideia desse kit de ferramentas é não só extrair dados externos, mas também facilitar a visualização e pós processamento desses dados, seja propondo gráficos de forma inteligente com base nos dados ou seja sugerindo um modelo matemático para encontrar padrões nesses dados.

De qualquer forma, a ideia do projeto foi crescendo e crescendo e hoje o objetivo é não só fazer um toolkit para pessoas técnicas, mas sim evoluir isso e criar uma ferramenta para que pessoas leigas possam ter acesso a mais dados de forma desburocratizada.

[ATUALIZAÇÃO 25/11/2022 20:20]

Funcionalidade extra II

Agora temos uma calculadora de expressões aritméticas!

Demonstração da primeira versão do site: http://datatools.jvmsolutions.tech/

GitHub com instruções de instalação: https://github.com/aureliowozhiak/data_collection_tools

Home page of Data Tools

Funcionalidades já implementadas


Extração de dados (em desenvolvimento)

Nessa página, a idéia é você passar a url de uma página HTML e o Data Tools irá retornar diversos dados e informações relevantes sobre o conteúdo da página.
⚠️ Por enquanto a ferramenta só retorna o título da página informada com uma lista de todos os links encontrados dentro dessa página, mas a idéia é ter um mini relatório de dados extraído de forma automática! ⚠️

http://datatools.jvmsolutions.tech/tools/web_scraping/

Web Srapping page

Web Scrapping result page

Links result page


Extração de tabelas HTML

Essa funcionalidade é simples, você informa uma URL, de um site que contenha uma ou mais tabelas em HTML, e passa a "posição" da tabela na página, e o retorno é essa tabela carregada dentro do Data Tools, junto de um botão para download em formato CSV:
http://datatools.jvmsolutions.tech/tools/table_scraping/

Table scrapping page

Table scrapping result page

CSV generated

                  

Funcionalidade extra

Inspirado no post: Seu portifólio/blog a partir da API do TabNews, implementei um blog super simples, com lista dos meus posts + visualização de um post em aba separada: http://datatools.jvmsolutions.tech/blog/


Fiquem a vontade para darem ideias, ajudarem com o projeto no GitHub e compartilharem o projeto com aquele seu colega de trabalho que precisa extrair dados de um site e tá com dificuldade 😁

Carregando publicação patrocinada...
7
1

Essa é a ideia, poder facilitar a vida de todo mundo. No futuro pretendo fazer funcionalidades para sugerir gráficos e visualização de dados (o que vai ajudar a ter alguns insights em cima dos dados que foram coletados)

2

Ferramenta muito massa, to construindo uma nesse estilo sendo que mais simples, ela será uma API onde o usuário pode enviar no body da requisição os sources que são as fontes das notícias e a API irá fazer um Web Scraping de todas as notícias sobre mercado financeiro das fontes que foram enviadas na requisição e nas datas que foram solicitadas, os textos extraídos eu vou jogar em um csv.

O propósito dessa ferramenta é ter dados para conseguir treinar um modelo de aprendizagem que consiga identificar com bases nas notícias quais acões que são impactadas e como são impactadas, positivamente ou negativamente. No futuro quando tiver com isso pronto planejo escrever um post aqui explicando a ferramenta e quais os propósitos que ela vai servir.

2

Cara, que massa ein!

Acho que podemos se ajudar ein. Acho que sua ferramenta é muito complementar ao que estou fazendo, e posso conectar e criar um modulo para dar "uma cara" pro uso dessa API.

Qualquer coisa, tem link do meu linkedin lá no meu perfil do github, ou se preferir, passo meu discord aqui.

1
1

íncrível! Tempos atrás eu resolvi testar uns webscrapers de extensão para navegador à fim de facilitar a minha vida, mas acabei me decepcionando. Os que permitem seleções específicas acabam cobrando por isso e os outros, nem ao menos possuem essa feature. Então algo bacana seria pontos de referências, para que assim consiga exatamente o que estaria buscando.

1
1
1