To usando a API do Bing.
Pensei em juntar Bing + CSE do Google ou, quem sabe, Bing + Brave API, mas
- é muuuito trampo..
- não quero usar muita coisa do google (mesmo tendo q usar os anúncios deles kkkk 🤡)
- mesmo gostando da ideia ainda não confio 100% no brave...
Pra falar a real, o Bing vai conseguir nos ajudar nesse inicio acho que muito bem...
Agora, tô correndo para estruturar meu banco de dados (ElasticSearch) e começar a criar um índice próprio. A jogada é começar pelos sites mais famosos, Wikipedia e depois meter uns 80% nos sites .com.br e 20% em outros.
O desafio agora é montar esse índice direitinho para não ter que fazer gambiarra lá na frente.
Campos de Testes que uso hoje:
last_crawled_at:
- Descrição: Data e hora do último processo de crawling.
- Tipo: Data e hora (ISO 8601).
title:
- Descrição: Título da página web.
- Tipo: Texto.
url:
- Descrição: URL completa da página web.
- Tipo: Texto.
meta_description:
- Descrição: Descrição meta da página web.
- Tipo: Texto.
headings:
- Descrição: Dicionário com todas as headings (h1-h6) presentes na página.
- Tipo: Objeto.
header_content:
- Descrição: Conteúdo tratado da tag
<header>
da página. - Tipo: Texto.
footer_content:
- Descrição: Conteúdo tratado da tag
<footer>
da página. - Tipo: Texto.
body_content:
- Descrição: Texto tratado do corpo da página, sem HTML.
- Tipo: Texto.
images:
- Descrição: Lista de objetos representando imagens na página.
- Tipo: Lista de Objetos.
- url: URL da imagem.
- type: Tipo/formato da imagem (extensão do arquivo).
- size: Dimensões da imagem (largura x altura).
- kb_size: Tamanho da imagem em kilobytes.
- alt: Texto alternativo da imagem.
speed_desk:
- Descrição: Tempo de carregamento da página em desktop.
- Tipo: Número.
speed_mobile:
- Descrição: Tempo de carregamento da página em dispositivos móveis.
- Tipo: Número.
local:
- Descrição: Localização geográfica da página (país).
- Tipo: Texto.
links:
- Descrição: Lista de URLs de referência encontrados na página.
- Tipo: Lista de Textos.
Esses campos foram pensados para guardar as infos durante o crawling, mas sinto que ainda falta um monte para chegar no ponto massa. Depois, a parada vai ser criar um sistema de crawling gigante pra dar conta de tudo isso...