Localmente uso o ollama com llama3.1:8b com o all-MiniLM-L6-v2 para testes RAG simples - um note com 64Gb RAM e GTX 1650 4Gb Ram (pois eh...)
Lento ? Sim, mas usavel para testes.
Por conveniencia, uso como frontend o anythingllm cloud (docker) e eventualmente o anythingllm desktop (mas tambem as vezes o webui ou o taskingai - tudo sempre local)
Para testes mais serios ou uso conexao com os LLM providers (deepseek principalmente, mas tambem openai, gemini, claude, groq, etc) ou uma experimentacao que estou fazendo com o beta da VULTR para IA (50M tokens por US 10)
O SmolVLM-500M devo colocar testes ainda este final de semana.