Executando verificação de segurança...
14

Execute LLMs 4x Mais Rápido com LLamaFile em um Só Arquivo! 💥

Fala, galera! 🚀 Hoje vou compartilhar uma das maneiras mais simples de executar uma Large Language Model (LLM) localmente usando apenas um arquivo. Vamos falar sobre o Llamafile!

O que é o Llamafile?

O Llamafile é uma iniciativa da Mozilla que permite acesso rápido e fácil às LLMs da Meta Llama, que são de código aberto, além de vários outros modelos derivados — tudo isso em um único arquivo executável. É uma forma prática de ter essas potentes ferramentas ao alcance das suas mãos.

Executando o Llamafile

Com o Llamafile, você pode executar um modelo com um comando simples. Para começar, faça o download do modelo desejado no formato .llamafile. A Mozilla disponibiliza diversos modelos no Huggingface.

Se seus recursos forem limitados, sugiro utilizar modelos menores com quantização como Q4, Q5 ou Q6. Embora não sejam tão eficientes quanto os modelos de maior precisão, essa é uma ótima opção para otimizar o uso de memória e processamento.

curl -L -o TinyLlama-1.1B-Chat-v1.0.Q4_K_S.llamafile https://huggingface.co/Mozilla/TinyLlama-1.1B-Chat-v1.0-llamafile/blob/main/TinyLlama-1.1B-Chat-v1.0.Q4_K_S.llamafile

Substitua <nome_do_arquivo> pelo nome real do arquivo Llamafile que você deseja executar:

./<nome_do_arquivo>.llamafile

Por exemplo, para rodar o Llamafile do modelo LLaVA:

./llava-v1.5-7b-q4.llamafile

macOS, Linux e BSD

Se você estiver usando macOS, Linux ou BSD, não se esqueça de conceder permissão de execução ao arquivo:

chmod +x <nome_do_arquivo>.llamafile

Windows

Para usuários de Windows, é necessário renomear o arquivo adicionando .exe ao final:

ren <nome_do_arquivo>.llamafile <nome_do_arquivo>.exe

Limitações

Limite de tamanho de arquivo: Uma limitação significativa, especialmente para usuários do Windows, é o tamanho máximo de arquivo executável de 4 GB para arquivos llamafile. Isso significa que, embora o llamafile possa teoricamente empacotar os pesos do modelo dentro do próprio executável, modelos maiores que 4 GB exigem que os pesos sejam armazenados e referenciados externamente. O arquivo de exemplo LLaVA evita esse limite por pouco, com tamanho inferior a 4 GB, mas outros modelos, como o WizardCoder 13B, exigem pesos externos. Essa restrição pode limitar a usabilidade em plataformas Windows, especialmente com o aumento do tamanho dos modelos de linguagem.

Até o próximo post

Este guia forneceu uma visão geral do que é o Llamafile e como instalá-lo e executá-lo. Para mais detalhes, não deixe de consultar o arquivo README do projeto no GitHub. Qualquer dúvida ou sugestão, deixem nos comentários! 😉

Carregando publicação patrocinada...
3

Isso pode ser muito útil em ambientes de rede wifi instável (como hospitais, por exemplo).

Temos usados as LLMs (via API) como engines de comunicação (em que desprezamos as bases de conhecimento da LLM e somente utilizamos sua capacidade de comunicação humanizada). Nestes casos, modelos mais leves podem funcionar bem.

Um exemplo é a nossa Dotty (SAC de Inteligência Artificial). Vou testar nela e ver como se comporta.

1

Colocar toda complexidade de instalação em um único arquivo é uma baita ajuda para vários experimentos de iniciantes em LLM.