To usando a API do Bing. Pensei em juntar Bing + CSE do Google ou, quem sabe, Bi · MatheusC

To usando a API do Bing.

Pensei em juntar Bing + CSE do Google ou, quem sabe, Bing + Brave API, mas

é muuuito trampo..
não quero usar muita coisa do google (mesmo tendo q usar os anúncios deles kkkk 🤡)
mesmo gostando da ideia ainda não confio 100% no brave...

Pra falar a real, o Bing vai conseguir nos ajudar nesse inicio acho que muito bem...

Agora, tô correndo para estruturar meu banco de dados (ElasticSearch) e começar a criar um índice próprio. A jogada é começar pelos sites mais famosos, Wikipedia e depois meter uns 80% nos sites .com.br e 20% em outros.

O desafio agora é montar esse índice direitinho para não ter que fazer gambiarra lá na frente.

Campos de Testes que uso hoje:

last_crawled_at:

Descrição: Data e hora do último processo de crawling.
Tipo: Data e hora (ISO 8601).

title:

Descrição: Título da página web.
Tipo: Texto.

url:

Descrição: URL completa da página web.
Tipo: Texto.

meta_description:

Descrição: Descrição meta da página web.
Tipo: Texto.

headings:

Descrição: Dicionário com todas as headings (h1-h6) presentes na página.
Tipo: Objeto.

header_content:

Descrição: Conteúdo tratado da tag <header> da página.
Tipo: Texto.

footer_content:

Descrição: Conteúdo tratado da tag <footer> da página.
Tipo: Texto.

body_content:

Descrição: Texto tratado do corpo da página, sem HTML.
Tipo: Texto.

images:

Descrição: Lista de objetos representando imagens na página.
Tipo: Lista de Objetos.
- url: URL da imagem.
- type: Tipo/formato da imagem (extensão do arquivo).
- size: Dimensões da imagem (largura x altura).
- kb_size: Tamanho da imagem em kilobytes.
- alt: Texto alternativo da imagem.

speed_desk:

Descrição: Tempo de carregamento da página em desktop.
Tipo: Número.

speed_mobile:

Descrição: Tempo de carregamento da página em dispositivos móveis.
Tipo: Número.

local:

Descrição: Localização geográfica da página (país).
Tipo: Texto.

links:

Descrição: Lista de URLs de referência encontrados na página.
Tipo: Lista de Textos.

Esses campos foram pensados para guardar as infos durante o crawling, mas sinto que ainda falta um monte para chegar no ponto massa. Depois, a parada vai ser criar um sistema de crawling gigante pra dar conta de tudo isso...