Desenvolvedor realiza experimento de web scraping com GPT-4o e gasta 24 dólares em apenas dois dias · NewsletterOficial

O experimento envolveu a utilização da funcionalidade de saídas estruturadas da API da OpenAI para criar um web scraper assistido por inteligência artificial, com o objetivo de analisar a capacidade do modelo em extrair dados estruturados a partir de conteúdos HTML.

Inicialmente, o modelo foi solicitado para extrair dados de uma string HTML, empregando modelos Pydantic para estruturar as saídas. Nos testes realizados com tabelas simples, o desempenho do modelo foi satisfatório. Em situações mis complexas, como uma tabela meteorológica de 10 dias da plataforma Weather, o GPT-4o conseguiu interpretar corretamente os dados, inclusive uma coluna adicional “Day/Night” que não era visível no site, mas estava presente no código-fonte.

Entretanto, a tecnologia enfrentou desafios ao lidar com tabelas que continham células combinadas, como uma tabela da Wikipedia sobre o Índice de Desenvolvimento Humano, onde o modelo teve dificuldades em alinhar as colunas corretamente, resultando em dados desestruturados.

Apesar do desempenho geral positivo na extração de dados, o desenvolvedor ressalta os custos envolvidos, que tornam a abordagem impraticável para uso contínuo, onde até mesmo tabelas HTML pequenas podem conter uma alta quantidade de caracteres. Para mitigar esses custos, o desenvolvedor implementou uma lógica própria de limpeza do HTML, removendo dados desnecessários antes de passar o conteúdo para o modelo, reduzindo pela metade o número de caracteres processados.

Além disso, foram sugeridas melhorias para a API, como a captura de eventos do navegador para aprimorar a experiência do usuário e a realização de mais experimentos com a limpeza do HTML para otimizar os resultados.

O desenvolvedor também observa que os testes com o modelo GPT-4o mini apresentaram um desempenho significativamente inferior em comparação ao GPT-4.

Mais detalhes sobre o experimento podem ser encontrados no repositório edublancas/posts no GitHub, que ainda está em fase inicial.