Nathan, eu não saberia como lhe ajudar na prática, mas achei fascinante o problema a ser resolvido! Nesses casos, eu tento imaginar como que eu humano faria para entender a nota fiscal, pois se há um padrão nisso, talvez fique mais fácil.
Por exemplo: as notas fiscais seguem um padrão de organizar as informações por regiões? No sentido de que, alguns dados geralmente ficam na parte de cima do layout, algumas na parte do meio, e algumas na parte de baixo. Talvez isso possa ser um indicativo de quais informações possam estar lá (mas também falho se o layout for completamente diferente).
Em paralelo, não sei se isso vai ajudar de alguma forma mas vou deixar aqui, que é um projeto que transforma desenhos em HTML. Entendo que não vai ajudar a entender a semântica das coisas, mas vai que ajuda de alguma forma a ter um OCR melhor: https://www.microsoft.com/en-us/ai/ai-lab-sketch2code