Meus 2 cents:
-
As IAs trabalham por tokens, entao, porque nao armazenar direto os tokens ao inves das sentencas ?
-
Caso queira seguir direto na questao do "hexa semantico", talvez um caminho seja tranformar as sentencas em seu equivalente fonetico - o que ganha um extra que pode ser utilizado com qualquer lingua (mais ou menos, mas voce entendeu)
2.1. tambem poderia ter algum ganho aqui usando dicionario e compactacao zstd
OBS: um pouco mais sobre compactacao usando dicionarios aqui:
https://www.debugbear.com/blog/shared-compression-dictionaries
- Como lida com IA, talvez dar uma checada em "taxonomia de bloom" para tentar algum insight diferente.