Executando verificação de segurança...
4

Pesquisador utiliza modelo Gemini para extrair dados de vídeo, destacando seu baixo custo e alta precisão

Simon Willison, que desejava somar seus gastos com um serviço de nuvem, enfrentou a dificuldade de ter os valores e datas de pagamento espalhados por diversos e-mails, o que tornaria a tarefa demorada. Para contornar esse desafio, ele recorreu à "extração de vídeo", técnica que envolve a captura da tela e a utilização de um modelo de IA para extrair os dados relevantes.

Willison gravou um vídeo de 35 segundos enquanto acessava os e-mails. Em seguida, processou a gravação na ferramenta AI Studio, do Google, que permite experimentar diferentes versões dos modelos Gemini 1.5 Pro e 1.5 Flash. Ele então solicitou ao Gemini que extraísse os dados de preços do vídeo e os organizasse em um formato JSON, incluindo datas e valores. O modelo conseguiu realizar a extração com sucesso, e Willison converteu os dados em uma tabela CSV para uso em planilhas.

Ele destaca o custo extremamente baixo da operação, afirmando que teve que refazer os cálculos três vezes para confirmar que não havia cometido um erro. A análise de vídeo custou menos de um décimo de centavo, consumindo apenas 11.018 tokens no modelo Gemini 1.5 Flash 002. No final, Willison não teve qualquer custo, já que o Google AI Studio atualmente oferece o uso gratuito para alguns tipos de casos.

A conversão de dados não estruturados em estruturados é uma parte importante do trabalho de Willison, que também é jornalista de dados. Ele aponta que alguns dados são difíceis de extrair devido à maneira como são formatados ou apresentados. Nesses casos, ele vê grande potencial na extração de vídeo com IA, uma vez que a técnica supera muitas das barreiras tradicionais de extração. Willison também observa que a gravação de vídeo não é afetada por autenticações de sites ou tecnologias anti-scraping, o que amplia suas possibilidades.

No entanto, especialistas alertam que essa capacidade pode levantar preocupações de privacidade, pois poderia ser explorada para espionagem em uma escala antes inimaginável.

Carregando publicação patrocinada...
2

Gravar interações de usuário com aplicações em vídeo e depois fazer um scrap desse dado não estruturado gerado para fazer uma operação automatica. Olha, acho bom demais pra ser verdade, mas que é interessante para uma série de possibilidades, quem nunca teve uma atividade rotineira e isso poderia simular N vezes a atuação dela de forma automática?