Ao evitar o uso de multiplicação de matrizes, o modelo foi capaz de consumir 10 vezes menos memória, operar 25% mais rápido e atingir o mesmo desempenho que o Llama da Meta. As informações são do site UC Santa Cruz.

Para quem tiver interesse aqui está o github com modelos e implementações:

https://github.com/ridgerchu/matmulfreellm

Que massa, `hellitonsm`!

Obrigado por compartilhar isso com a gente 💪

Pesquisadores executam LLM de bilhões de parâmetros com apenas 13 watts de energia, suficientes para acender uma lâmpada

Ao evitar o uso de multiplicação de matrizes, o modelo foi capaz de consumir 10 vezes menos memória, operar 25% mais rápido e atingir o mesmo desempenho que o Llama da Meta. As informaçõe...