Executando verificação de segurança...

NewsletterOficial

1 min de leitura ·

Hugging Face lança modelos de IA que operam com menos de 1 GB de RAM

A Hugging Face anunciou os modelos “SmolVLM-256M” e “SmolVLM-500M”, projetados para funcionar eficientemente em dispositivos com recursos limitados, como laptops com menos de 1 GB de RAM. Além disso, os modelos são ideais para desenvolvedores que buscam processar grandes volumes de dados de maneira acessível.

Os modelos possuem 256 milhões e 500 milhões de parâmetros, respectivamente — os parâmetros são indicadores aproximados da capacidade de resolução de problemas de um modelo. Ambos são capazes de executar tarefas como descrição de imagens e videoclipes, bem como responder a perguntas relacionadas a PDFs, incluindo texto digitalizado e elementos gráficos.

De acordo com a equipe da Hugging Face, os modelos superam o desempenho do Idefics 80B, um de 80 bilhões de parâmetros, em benchmarks como o AI2D, voltado para diagramas científicos de nível escolar. Nos testes, o SmolVLM-256M atingiu uma pontuação de 73,6%, enquanto o SmolVLM-500M alcançou 79,7%, em contraste com os 56,3% obtidos pelo Idefics 80B.

Ambos os modelos estão disponíveis online e podem ser baixados diretamente no Hugging Face sob a licença Apache 2.0, permitindo seu uso sem restrições.

Fonte: https://techcrunch.com/2025/01/23/hugging-face-claims-its-new-ai-models-are-the-smallest-of-their-kind/

Meus 2 cents:

Vou testar - mas se o nivel de reposta (tempo e qualidade) for realmente como o anunciado, eh um 'game changer' - atividades com RAG acabam usando o LLM apenas como 'processador de saida' uma vez que a informacao ja foi retornada via os embeddings obtidos no BD de vetores.

Se der para fazer um sistema RAG com LLM local sem precisar de uma GPU, eh algo muito fora da curva. Uma das grandes dificuldades de tornar RAG viavel financeiramente eh justamnente a necessidade de um server com GPU (para uma LLM privada) ou entao pagar tokens para os fornecedores de IA (deepseek, chatgpt, claude, gemini, etc).

De fato @oletros. Tbm vou testar. Se possível conta sua experiência para nós.

Dúvida, para RAG é preciso colocar os embeddings de pdfs (por exemplo) dentro de um banco de dados vetorial. Para gerar estes embeddings, vc achou algo bom? Open source, ou barato?

n achei muita coisa útil nas minhas pesquisas

Mais alguns cents:

Para guardar o DB vetorial para RAG (todos gratis):
chromaDB
lanceDB OSS
Postgresql (pgvector)
Qdrant Community
milvus

Para gerar:
Por enquanto estou usando o LocalAI com ollama e all-MiniLM-L6-v2

Entendi, tem o weaviate para bd tbm. Pessoal do langchain usa bastante ele.
Vc roda esses modelos na gpu ou cpu only? Digo pq tenho gpu AMD razoável (8gb de vram), mas é inútil já q ollama e a maioria dos llms n possuem suporte para gpu AMD... Na nvidia é outra história...

Localmente uso o ollama com llama3.1:8b com o all-MiniLM-L6-v2 para testes RAG simples - um note com 64Gb RAM e GTX 1650 4Gb Ram (pois eh...)

Lento ? Sim, mas usavel para testes.

Por conveniencia, uso como frontend o anythingllm cloud (docker) e eventualmente o anythingllm desktop (mas tambem as vezes o webui ou o taskingai - tudo sempre local)

Para testes mais serios ou uso conexao com os LLM providers (deepseek principalmente, mas tambem openai, gemini, claude, groq, etc) ou uma experimentacao que estou fazendo com o beta da VULTR para IA (50M tokens por US 10)

O SmolVLM-500M devo colocar testes ainda este final de semana.

Beta da VULTR? Conte mais...

Nenhum segredo aqui: na VULTR estao disponibilizando um beta aberto para uso de IA (menu serveless / inference)

No deploy da instancia, cobram US 10 por 50M tokens - modelos: llama3.1:70b e llama3.3:70b e outros.

Alem disso, ofertam US 250 para deploy de GPU.

Vale a pena pra brincar.

Top, obrigado pela dica...

Quero acompanhar este post e seus testes.
O maior problema das IA hj ao meu ver é o custo de processamento em si, ou seja, você precisa ter uma boa placa de video para executar tarefas simples.
Tendo uma IA onde dá para usar a RAM do PC sem a necessidade de uma placa de video já será um grande avanço.

Alguém chegou a testar eles na prática , mesmo que localmente (ou em alguma aplicação) e verificou bom desempenho?

Meus 2 cents expandidos:

Sim, roda direto via CPU sem precisar de GPU
Mas apenas para testes de desenvolvimento, nao serve para producao.
So aceita prompts em ingles (em pt-br gera alucinacoes)
Para processar o prompt "who are you" levou 2m30s em um i7-11800H e gerou a seguinte resposta:

User: who are you ? Assistant: I am a person who is interested in learning about the world, its history, and its culture. I am also a person who enjoys reading, writing, and exploring different places. I am a person who is curious and interested in learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different places. I am a person who enjoys learning about the world, its history, and its culture. I am a person who enjoys reading, writing, and exploring different

Ate da para usar em RAG, se o tempo de resposta de 2-3 mim for aceitavel
Multi-usuario ? Com 2 solicitacoes simultaneas, o tempo de resposta subiu para 3m30s

Enfim - para quem quer brincar, ja da para o gasto. Mas nao muda o fato que para producao precisa de GPU ou LLM providers.

Ainda faltam mais testes, se tiver novidades aviso.

Observação:
É 1GB de RAM de GPU e não RAM de memória.

Pelo texto, é RAM, não VRAM

Qual a diferença?
Fale me mais.

Se não sabe a diferença como faz uma afirmação dessas?

Eu pensei que você soubesse mais, por isto pedi para dar mais informações.

Tu respondeu duas pessoas diferentes, e eu tenho certeza que tu achou que elas fossem a mesma pessoa.

RAM -> random access memory (memória de acesso aleatório)
VRAM -> video random access memory (memória de acesso aleatório de vídeo)

A memória RAM é usada pela CPU do computador, ela armazena temporariamente dados e instruções de programas em execução.

A VRAM é usada pela GPU, ela armazena texturas, shaders, modelos 3D e outros dados gráficos que são usados em jogos ou em outras aplicações visuais.

Saber que você pode utilizar um modelo de IA apenas com 1gb de RAM, indica a possibilidade de eliminar totalmente o uso da GPU (que é um grande obstaculo financeiro).

Essa é a diferença entre usar 1gb de RAM e 1gb de VRAM.

Obrigado pela explicação