Meus 2 cents:
Vou testar - mas se o nivel de reposta (tempo e qualidade) for realmente como o anunciado, eh um 'game changer' - atividades com RAG acabam usando o LLM apenas como 'processador de saida' uma vez que a informacao ja foi retornada via os embeddings obtidos no BD de vetores.
Se der para fazer um sistema RAG com LLM local sem precisar de uma GPU, eh algo muito fora da curva. Uma das grandes dificuldades de tornar RAG viavel financeiramente eh justamnente a necessidade de um server com GPU (para uma LLM privada) ou entao pagar tokens para os fornecedores de IA (deepseek, chatgpt, claude, gemini, etc).