acho que tu pode contornar o problema dos dados se tu rodar tudo no navegador (não enviar o cupom fiscal pra um servidor pra processamento).
a forma mais comum de fazer isso é usando modelos de IA (procure por OCR ou table extraction).
o desafio aqui seria adaptar esses modelos pra rodar no navegador.
infelizmente só saberia te indicar projetos que fazem isso em python, mas daí tu precisaria de um servidor rodando.
algumas bibliotecas de referencia: PaddlePaddle/PaddleOCR e jsvine/pdfplumber (baseado em pdfs mas a ideia da extração de tabelas é a mesma)