Executando verificação de segurança...
5

Desenvolvedor realiza experimento de web scraping com GPT-4o e gasta 24 dólares em apenas dois dias

O experimento envolveu a utilização da funcionalidade de saídas estruturadas da API da OpenAI para criar um web scraper assistido por inteligência artificial, com o objetivo de analisar a capacidade do modelo em extrair dados estruturados a partir de conteúdos HTML.

Inicialmente, o modelo foi solicitado para extrair dados de uma string HTML, empregando modelos Pydantic para estruturar as saídas. Nos testes realizados com tabelas simples, o desempenho do modelo foi satisfatório. Em situações mis complexas, como uma tabela meteorológica de 10 dias da plataforma Weather, o GPT-4o conseguiu interpretar corretamente os dados, inclusive uma coluna adicional “Day/Night” que não era visível no site, mas estava presente no código-fonte.

Entretanto, a tecnologia enfrentou desafios ao lidar com tabelas que continham células combinadas, como uma tabela da Wikipedia sobre o Índice de Desenvolvimento Humano, onde o modelo teve dificuldades em alinhar as colunas corretamente, resultando em dados desestruturados.

Apesar do desempenho geral positivo na extração de dados, o desenvolvedor ressalta os custos envolvidos, que tornam a abordagem impraticável para uso contínuo, onde até mesmo tabelas HTML pequenas podem conter uma alta quantidade de caracteres. Para mitigar esses custos, o desenvolvedor implementou uma lógica própria de limpeza do HTML, removendo dados desnecessários antes de passar o conteúdo para o modelo, reduzindo pela metade o número de caracteres processados.

Além disso, foram sugeridas melhorias para a API, como a captura de eventos do navegador para aprimorar a experiência do usuário e a realização de mais experimentos com a limpeza do HTML para otimizar os resultados.

O desenvolvedor também observa que os testes com o modelo GPT-4o mini apresentaram um desempenho significativamente inferior em comparação ao GPT-4.

Mais detalhes sobre o experimento podem ser encontrados no repositório edublancas/posts no GitHub, que ainda está em fase inicial.

Carregando publicação patrocinada...
2
2

independente de como for, realmente todos eles sao bem caros e exigem um cuidado.

Estou fazendo diversos testes com gemini e gastei bem mais scrapeando páginas inteiras (obrigado pelos créditos google)

o negócio é que esta cada vez mais importante considerar os custos em tempo de desenvolvimento.

teriamos que ter algum modelo preditivo de custo em tempo de desenvolvimento. especialmente com esses modelos, mas isso tbm vale pra outras apis e servicos de nuvem.

eu imagino uma extensao que permitisse que colocassemos nas PRs esse tipo de previsao automagicamente

1

24$ is a rookie number

sim, sim, eu entendo que foi 24 dols para umas tabelas, mas ainda assim ficou meio estranho. achei que era um erro de digitação