Executando verificação de segurança...
3

To usando a API do Bing.

Pensei em juntar Bing + CSE do Google ou, quem sabe, Bing + Brave API, mas

  1. é muuuito trampo..
  2. não quero usar muita coisa do google (mesmo tendo q usar os anúncios deles kkkk 🤡)
  3. mesmo gostando da ideia ainda não confio 100% no brave...

Pra falar a real, o Bing vai conseguir nos ajudar nesse inicio acho que muito bem...

Agora, tô correndo para estruturar meu banco de dados (ElasticSearch) e começar a criar um índice próprio. A jogada é começar pelos sites mais famosos, Wikipedia e depois meter uns 80% nos sites .com.br e 20% em outros.

O desafio agora é montar esse índice direitinho para não ter que fazer gambiarra lá na frente.

Campos de Testes que uso hoje:

last_crawled_at:

  • Descrição: Data e hora do último processo de crawling.
  • Tipo: Data e hora (ISO 8601).

title:

  • Descrição: Título da página web.
  • Tipo: Texto.

url:

  • Descrição: URL completa da página web.
  • Tipo: Texto.

meta_description:

  • Descrição: Descrição meta da página web.
  • Tipo: Texto.

headings:

  • Descrição: Dicionário com todas as headings (h1-h6) presentes na página.
  • Tipo: Objeto.

header_content:

  • Descrição: Conteúdo tratado da tag <header> da página.
  • Tipo: Texto.

footer_content:

  • Descrição: Conteúdo tratado da tag <footer> da página.
  • Tipo: Texto.

body_content:

  • Descrição: Texto tratado do corpo da página, sem HTML.
  • Tipo: Texto.

images:

  • Descrição: Lista de objetos representando imagens na página.
  • Tipo: Lista de Objetos.
    • url: URL da imagem.
    • type: Tipo/formato da imagem (extensão do arquivo).
    • size: Dimensões da imagem (largura x altura).
    • kb_size: Tamanho da imagem em kilobytes.
    • alt: Texto alternativo da imagem.

speed_desk:

  • Descrição: Tempo de carregamento da página em desktop.
  • Tipo: Número.

speed_mobile:

  • Descrição: Tempo de carregamento da página em dispositivos móveis.
  • Tipo: Número.

local:

  • Descrição: Localização geográfica da página (país).
  • Tipo: Texto.

links:

  • Descrição: Lista de URLs de referência encontrados na página.
  • Tipo: Lista de Textos.

Esses campos foram pensados para guardar as infos durante o crawling, mas sinto que ainda falta um monte para chegar no ponto massa. Depois, a parada vai ser criar um sistema de crawling gigante pra dar conta de tudo isso...

Carregando publicação patrocinada...
2