Meus 2 cents: Vou testar - mas se o nivel de reposta (tempo e qualidade) for rea · Oletros

Em resposta a Hugging Face lança modelos de IA que operam com menos de 1 GB de RAM

Meus 2 cents:

Vou testar - mas se o nivel de reposta (tempo e qualidade) for realmente como o anunciado, eh um 'game changer' - atividades com RAG acabam usando o LLM apenas como 'processador de saida' uma vez que a informacao ja foi retornada via os embeddings obtidos no BD de vetores.

Se der para fazer um sistema RAG com LLM local sem precisar de uma GPU, eh algo muito fora da curva. Uma das grandes dificuldades de tornar RAG viavel financeiramente eh justamnente a necessidade de um server com GPU (para uma LLM privada) ou entao pagar tokens para os fornecedores de IA (deepseek, chatgpt, claude, gemini, etc).

DevJonathan

1 mês atrás

De fato @oletros. Tbm vou testar. Se possível conta sua experiência para nós.

Dúvida, para RAG é preciso colocar os embeddings de pdfs (por exemplo) dentro de um banco de dados vetorial. Para gerar estes embeddings, vc achou algo bom? Open source, ou barato?

n achei muita coisa útil nas minhas pesquisas

Oletros

Autor

1 mês atrás

Mais alguns cents:

Para guardar o DB vetorial para RAG (todos gratis):
chromaDB
lanceDB OSS
Postgresql (pgvector)
Qdrant Community
milvus

Para gerar:
Por enquanto estou usando o LocalAI com ollama e all-MiniLM-L6-v2

DevJonathan

1 mês atrás

Entendi, tem o weaviate para bd tbm. Pessoal do langchain usa bastante ele.
Vc roda esses modelos na gpu ou cpu only? Digo pq tenho gpu AMD razoável (8gb de vram), mas é inútil já q ollama e a maioria dos llms n possuem suporte para gpu AMD... Na nvidia é outra história...

Oletros

Autor

1 mês atrás

Localmente uso o ollama com llama3.1:8b com o all-MiniLM-L6-v2 para testes RAG simples - um note com 64Gb RAM e GTX 1650 4Gb Ram (pois eh...)

Lento ? Sim, mas usavel para testes.

Por conveniencia, uso como frontend o anythingllm cloud (docker) e eventualmente o anythingllm desktop (mas tambem as vezes o webui ou o taskingai - tudo sempre local)

Para testes mais serios ou uso conexao com os LLM providers (deepseek principalmente, mas tambem openai, gemini, claude, groq, etc) ou uma experimentacao que estou fazendo com o beta da VULTR para IA (50M tokens por US 10)

O SmolVLM-500M devo colocar testes ainda este final de semana.

PRMPOKER

1 mês atrás

Beta da VULTR? Conte mais...

Oletros

Autor

1 mês atrás

Nenhum segredo aqui: na VULTR estao disponibilizando um beta aberto para uso de IA (menu serveless / inference)

No deploy da instancia, cobram US 10 por 50M tokens - modelos: llama3.1:70b e llama3.3:70b e outros.

Alem disso, ofertam US 250 para deploy de GPU.

Vale a pena pra brincar.

PRMPOKER

1 mês atrás

Top, obrigado pela dica...

valterpatrick

1 mês atrás

Quero acompanhar este post e seus testes.
O maior problema das IA hj ao meu ver é o custo de processamento em si, ou seja, você precisa ter uma boa placa de video para executar tarefas simples.
Tendo uma IA onde dá para usar a RAM do PC sem a necessidade de uma placa de video já será um grande avanço.