Então o anythingLLM seria tipo o ollama certo?
É o que estou usando atualmente para testar os modelos.
Porém por conta da limitação que te falei o resultado é bem paia, mas vou testar com as dicas que você me deu, muito obrigado por seu tempo!
Então o anythingLLM seria tipo o ollama certo?
É o que estou usando atualmente para testar os modelos.
Porém por conta da limitação que te falei o resultado é bem paia, mas vou testar com as dicas que você me deu, muito obrigado por seu tempo!
Mais ou menos.
O diagrama do que imaginei eh:
aplicacao => api anythingLLM => modelo LLM (que poder ser ollama, api chatGPT, claude, etc)
Hoje dentro da aplicacao voce usa as chamadas direto do ollama - funciona, mas fica engessado e voce tem de fazer tudo.
A ideia:
aplicacao => app flask so para direcionar => api anythingLLM => LLM desejado.
Vantagem ? Separar a aplicacao do LLM (fica agnostica). Se a qualquer momento quiser tirar o anythingLLM e testar direto o LLM desejado, eh so fazer no app em flask, sem mexer nenhuma linha na aplicacao de producao.
Por que criar tantas camadas ? O formato de conexao e uso dos LLMs esta mudando muito rapido - colocar um "wrapper" (flask) no meio permite estabilizar a aplicacao e mudar a forma de trabalho sem se preocupar (p.ex. acrescentar MCPs e agentes no meio do caminho). Ideia - aplicacao eh uma coisa, conexao com LLM eh outra.