Entendi, tem o weaviate para bd tbm. Pessoal do langchain usa bastante ele. Vc r · DevJonathan

Respondendo a "Mais alguns cents: Para guardar o DB vetorial p..." dentro da publicação Hugging Face lança modelos de IA que operam com menos de 1 GB de RAM

DevJonathan

3 meses atrás

Entendi, tem o weaviate para bd tbm. Pessoal do langchain usa bastante ele.
Vc roda esses modelos na gpu ou cpu only? Digo pq tenho gpu AMD razoável (8gb de vram), mas é inútil já q ollama e a maioria dos llms n possuem suporte para gpu AMD... Na nvidia é outra história...

Oletros

3 meses atrás

Localmente uso o ollama com llama3.1:8b com o all-MiniLM-L6-v2 para testes RAG simples - um note com 64Gb RAM e GTX 1650 4Gb Ram (pois eh...)

Lento ? Sim, mas usavel para testes.

Por conveniencia, uso como frontend o anythingllm cloud (docker) e eventualmente o anythingllm desktop (mas tambem as vezes o webui ou o taskingai - tudo sempre local)

Para testes mais serios ou uso conexao com os LLM providers (deepseek principalmente, mas tambem openai, gemini, claude, groq, etc) ou uma experimentacao que estou fazendo com o beta da VULTR para IA (50M tokens por US 10)

O SmolVLM-500M devo colocar testes ainda este final de semana.

PRMPOKER

3 meses atrás

Beta da VULTR? Conte mais...

Oletros

3 meses atrás

Nenhum segredo aqui: na VULTR estao disponibilizando um beta aberto para uso de IA (menu serveless / inference)

No deploy da instancia, cobram US 10 por 50M tokens - modelos: llama3.1:70b e llama3.3:70b e outros.

Alem disso, ofertam US 250 para deploy de GPU.

Vale a pena pra brincar.

PRMPOKER

3 meses atrás

Top, obrigado pela dica...