Atualmente eu uso o LM Studio com LLama 3 em conjunto com o AnythingLLM para fazer isso que você disse e funciona mais o menos bem... Pelo menos o modelo de 7B do Llama parece ter algumas limitações bem fortes, frequentemente eu pergunto sobre algo que está na documentação que passei e ele não me responde de forma adequada, na verdade eu diria que boa parte das vezes a resposta não é a que eu gostaria, estou estudando para simplificar o trabalho da minha equipe com relação a documentação e etc... Mas até o momento estou falhando miseravelmente em conseguir fazer as coisas funcionarem como eu gostaria, então assim dá para fazer, mas exige tempo e hardware adequado, infelizmente para minha RTX 3060 não rola modelos muito maiores.
1