Sobre a dificuldade de levantar dados confiáveis - seja em pesquisas ou não · obrunoanastacio

Antes de iniciar, estou confiando na maturidade do leitor em conseguir dissociar o tema do texto e o contexto eleitorial atual. Vamos tirar o "chapeuzinho de eleitor" e focar apenas na parte técnica que nos interessa, ok? Confio em vocês!

Esse texto foi escrito e motivado pelo ruído entre os resultados do 1° turno das eleições de 2022 versus as principais pesquisas de opinião de voto publicadas nas semanas anteriores. Como é comentado nesta matéria da BBC Brasil, este tem sido um problema comum à vários países nos últimos anos (e, inclusive, a matéria tenta levantar algumas hipóteses para esse fenômeno).

Mas, quero estender esse assunto: levantar dados confiáveis - seja em pesqusias no não - não é tarefa fácil.

Quando se trata de pesquisas - seja políticas, de mercado, etc. - sempre dependemos da assertividade de quem definiu as amostras (que muitas vezes dependem da assertividade de outros dados demográficos, que também podem estar distorcidos) e do ser humano que está (ou não) disposto a responder honestamente as questões.

Mas, até mesmo em situações onde a coleta de dados parece não ter intervenção humana, a confiabilidade de dados é um problema.

Em uma situação, por exemplo, eu precisava criar um dashboard que mostrava o tempo de cada etapa de atendimento de entregadores em um galpão logístico, utilizando dados coletados via SAP.

Ok! Dados lançados automaticamente em sistema parecem ser confiáveis, certo?

Não se o input "automatico" depender de um operador humano, lendo um código de barras com um scanner. Será que ele foi fiel ao processo? O correto seria ele retirar palete por palete, ler etiqueta por etiqueta, e só então "finalizar" o caminhão no sistema. Mas, era mais rápido para o operador retirar todos os paletes de uma vez, finalizar o caminhão, e só então começar a leitura das etiquetas dos paletes. Obviamente que isso contaminava os meus dados, mas como convencê-lo a realizar um processo mais lento, só para não contaminar os dados do meu dashboard? Não faz sentido, não é mesmo?

O que aliás, pode ser levado a uma outra discussão: será que a leitura de processo do operador não é mais asseriva do que a minha? Qual é o motivo real para que ele só finalizasse o caminhão após ler cada palete? Porque não poderia ser o contrário?

Tenho certeza que todos aqui que já trabalharam com análise de dados tiveram que lidar com problemas desse tipo em algum momento. E essa discussão é pertinente, pois muito do que pretendemos fazer neste século com tecnologia - robótica, carros autônomos, machine learning, NLP, etc. - dependem muito da obtenção de dados altamente confiáveis.

Infelizmente não trago soluções para o problema. Só quero levantar a bola para essa discussão. Afinal, quem já passou pelo problema de ter que modelar, coletar, tratar dados com todo o carinho e descobrir apenas na sala do gerente quão distorcidos os seus resultados estavam, sabem muito bem o drama que é...

Sabedoria nos comentários, gente. Confio na maturidade de vocês