O problema disso é limitar o número de frases, como você atrela "joao casou com · xafiyom362

Em resposta a [Brainstorm] Compactação de dados com hexadecimal semantico

O problema disso é limitar o número de frases, como você atrela "joao casou com maria ontem noite" com "noticia joao maria" outras "noticia joao maria" ficam como? Por exemplo:

"joao jantou com maria ontem noite"

Como fica?

Uma forma mais generica é identificar e tratar palavras removendo diacríticos, preposição direta e modo por exemplo:

João: Substantivo próprio (nome de pessoa)
casou: Verbo (pretérito perfeito do indicativo)
com: Preposição
Maria: Substantivo próprio (nome de pessoa)
ontem: Advérbio de tempo
à: Preposição + artigo definido (a preposição "a" combinada com o artigo "a", formando "à")
noite: Substantivo comum (refere-se a um período do dia)

Viraria:

joao: Substantivo
casar: Verbo
com: Preposição
maria: Substantivo
ontem: Advérbio de tempo
noite: Substantivo

E você reordenaria por generalização:

casar: Verbo
com: Preposição
ontem: Advérbio

Por fim você armazena um padrão

%0 %1 com %2 ontem %3

Parece disperdício mas armazenando padrões o que você passa para obter a frase original são apenas indices para uma função, por exemplo (números randomicos para ilustrar) para você obter de volta a frase seria:

F5 João E3 Maria A5 noite

Vamos dizer que nosso padrão está no indice F5, E3 seja o verbo casar (no infinitivo), A5 ontem

E3 é um verbo, se você casa ou dança você casa ou dança com alguém,

%0 = João,
%1 = E3, que expande para "casou com"
%2 = Maria
A5 = expande para ontem a
%3 = noite

Ok mas vamos testar o desperdício, em E7 armazenamos o verbo jantar

F5 Marcos E7 Débora A5 noite

%0 = Marcos,
%1 = E3, que expande para "jantou com"
%2 = Débora
A5 = expande para ontem a
%3 = noite

Então armazenando um padrão e as palavras separadas temos de fato um uso maior de bytes na memória, porém um mecanismo muito mais versátil que cresce muito mais lentamente e de forma deduplicada

Madrick

12 dias atrás

Cara eu curti a ideia de padrões reutilizáveis, eu tava imaginando algo mais parecido com um dicionário mesmo, onde as palavras tão catalogadas em hexadecimal mesmo e através de metadados a IA escreveria as informações necessárias pra recuperação da informação, mas esse ponto me deu o que pensar, vlw :)

abcd1234

12 dias atrás

Já vi essa explicação em algum lugar... se não foi a mesma foi bem parecida tem algum material sobre?