Simplificando: use o anythingLLM para comecar.
Instale em um docker, configure e use a API dele de dentro da tua aplicacao para ser um wrapper para o LLM que voce precisa.
A vantagem que o anythingLLM ja vem com tudo "pronto" - voce apenas configura o LLM default desejado (mas pode ter varios).
Ai voce testa o que importa, ou seja, a aplicacao em si.
Quando voce fizer tudo funcionar, se for o caso, ai usa o python/langchain/etc para acessar os LLMs.
Na pratica ? Nao tenho mais acessado mais direto via python, uso o anythingLLM para tudo.
Grosso modo, o anythingLLM eh um openroute.ai local e gratuito.