[Brainstorm] Compactação de dados com hexadecimal semantico
Salve galera do tabnews, me chamo Kaue e estou cursando a faculdade de Análise e Desenvolvimento de Sistemas, eu tive recentemente uma ideia para uma iniciação científica na minha instituição e gostaria que vocês me dessem um feedback.
A ideia é a criação de uma linguagem semântica em hexadecimal. Atualmente, com IA, big data e uma série de recursos que usamos, os sistemas tem trabalhado com textos extensos como registros de chat, transcrições de áudio, logs e uma série de outros registros que armazenam informações em formatos tradicionais de texto. Mesmo quando compactados, os dados ainda sim ocupam um espaço significativo e demandam esforço considerável de processamento. No meu caso eu gosto muito de interagir com IAs como o chatGPT, Gemini e vejo que eles estão ganhando cada vez mais capacidade de manter uma contextualização coesa sobre os diálogos, mais especificamente, gosto do chatGPT por que é possível ver as informações que foram armazenadas a longo prazo e as configurações do programa deixam que você possa apaga-las sem problemas. Isso me fez pensar que “Mas e se eu não quisesse apaga-las? e se eu quisesse ter uma IA local que armazenasse meus dados?” infelizmente meu computador não é dos melhores para a função de emular uma IA e nem tenho um HD com mais de 2tb disponível, o que me levou a pensar “Será que não tem um jeito eficiente de armazenar isso? algo que seja mais rápido e pratico? uma língua que seja boa para ter esses dados?” isso me levou a pensar “Se eu posso representar coisas em sistemas mais compactos como binário e hexadecimal, por que eu não posso representar uma lingua em hexadecimal?” por exemplo, na frase
João casou com Maria ontem à noite
Essa sentença em UTF-8, ocupa cerca de 264 bits, se pudesse compactá-la usando uma tabela semântica em hexadecimal, o mesmo conteúdo poderia ser armazenado como:
FF 42 30 31 FF FF 30 A1 20 31 1A 24 FF
[noticia joao maria][joao casou com maria ontem noite] - algo equivalente a esse formato
Nesse exemplo, o espaço ocupado seria de cerca de 104 bits. Nessa lógica pensei, se pudéssemos traduzir para códigos semânticos compactos, teríamos em teoria um ganho significativo no espaço de armazenamento. Em sistemas que lidam com volumes massivos de texto, essa mudança poderia ser de grande valor.
Objetivo da minha pesquisa
Com isso em mente, pensei em desenvolver um sistema onde um valor em hexadecimal delimitaria o inicio e o fim da instrução, da mesma forma que usamos ( ) ou { }, dentro desse encapsulamento ele trabalharia diretamente com esse padrão tabelado de hexadecimais para trabalhar especificamente com dados textuais interpretados por IA, isso evitaria conflitos com padrões já existentes como ASCII ou Unicode. Para identificação e tratativa do texto, além da tradução, ele teria um cabeçalho que funcionaria como metadados para classificações e informações que permitam a IA contextualizar o armazenamento como, se é um documento, um log, uma conversa, uma transcrição, entre outros. Chegando a um resultado quero comparar o armazenamento e o processamento gerado em hexadecimal com um padrão comum que empresas costumam utilizar no seu cotidiano e o reverso, quanto tempo uma IA demora para consultar e extrair os dados se colocarmos um ao lado do outro.
Possíveis aplicações
Minha expectativa é que isso seja favorável para o armazenamento de grandes volumes de dados, sistemas de transmissão de dados e treinamento de IAs, pois caso isso seja possível, manter a semântica de uma palavra, bastaria apenas que um NPL traduzisse de volta de um hexadecimal para qualquer língua que estivesse programada. Eu gostaria de saber, o que vocês acham dessa proposta? quais criticas ou sugestões vocês podem me dar? alguém conhece algo parecido ou que ja tenha sido feito? vale a pena propor essa pesquisa para minha faculdade?