Bacana. Você está usando a plataforma LangChain como SaaS ou tá hospedando por conta própria o modelo? Neste último caso, ficou muito caro?
Sucesso pra ti.
o langchain é um framework que você instala como qualquer outro pacote NPM. Esse framework tem várias abstrações de embeddings, vetores, chunks entre outras coisas de certa forma "padronizadas" em modelos de LLM.
E o bacana é que nas abstrações dele tem coisas especificas sobre como você lida com providers de inteligência artificial como a OpenAI por exemplo.
Em relação ao modelo eu utilizei em maquina local o ollama com llama3.2-7b de no máximo 7B de parâmetros (gpu gforce 1050ti 4gb, 16gb ram e um I5 da quinta geração) já em produção inicialmente tentei utilizar VPS com GPUs, mas a mais barata que encontrei para rodar um modelo de no minimo 30B tinha o custo aproximado de US$100/mês.
E digo modelos de no mínimo 30B porque em testes, modelos menores começavam a "alucinar" e saiam totalmente do contexto.
Então depois de cavucar um pouco encontrei a GROQ que é um SaaS de modelos de IA de diversos tamanhos e tipos que você consome via API que tem um free tier bem interessante
se tiver alguma outra dúvida, manda ai :-)
Bom saber, os preços da API estão razoavelmente baixos mesmo.
Valeu. 👍