Fiz um projeto parecido envolvendo o GPT, eu entendo bastante dessa parte de usar modelos proprios sem ter que pagar pelo uso, acredito que a maior dificuldade que vai enfrentar é aceitarem os custos na empresa, o servidor precisa ter memória de vídeo cuda ou muitos processadores para você poder carregar o modelo para utilizacao em uma velocidade de resposta viável, principalmente nesses casos onde pode ter muitas requisições. Entao você tem dois caminhos ou faz via processamento CPU e vai ter que colocar praticamente o dobro de memoria Ram em relação ao tamanho do modelo. Um exemplo um gpt3 precisaria de uns 120GB de ram para o modelo mais treinado. Isso varia muito de acordo com o modelo de IA usado, mas tenha em mente que quanto menor menos inteligente ele é (menos dados de treinamento). Ou entao para ter uma performance excelente precisa combinar placas de vídeo cuda ate ter a memoria de video do tamanho necessario. Ambos se tornam caros, claro estamos falando de modelos tao capazes quando gpt3.5 ou superior.
Além disso recomendo que avalie muito bem o seu custo, pois terá que aprender muito, e o dobro desse muito se eles quiserem treinar o modelo próprio com os dados deles o que ja seria realmente substituir os funcionários o que ja é perfeitamente possível, mas ainda nao é para empresas pequenas $$$. A carga de aprendizado é enorme e vai de hardware a software alem de aprendizado profundo de máquina algo desafiador, mas maravilhoso. Não se pode cobrar pouco por isso, nao porque é novidade, mas porque realmente o custo de tempo e dedicação será alto. Nao consigo ver um projeto desses com menos de 8 meses de implantacao.
Sobre o Fine-Tuning: Eu desisti de implantar via essa forma por um detalhe que observei, Obs.: Eu sou pesquisador oficial da OpenAi desde 2018, eu trabalho muito com projetos que precisam converter as respostas de IAS de texto para variáveis, por exemplo você receber uma resposta da IA que pode ser integrada a um sistema sem IA e ser processada em variáveis que o sistema entende, o famoso serviço de engenharia de prompt, e eles tem a péssima rotina de encerrar modelos de fine-tuning e apenas te dizer: Vamos encerrar o modelo X, você tem até tal data para mudar para outro e ai você precisa retreinar outro e assim vai indo, no meu caso específico a cada mudança de modelo também muda a forma do prompt para receber as mesmas variáveis e sempre aumenta o custo das requisições o que provoca um custo enorme de reformulação a cada vez que isso ocorre, o que tem acontecido entre uma ou duas vezes ao ano.
Sobre a capacidade dos modelos: Infelizmente modelos GPT decaem com o tempo se forem treinados com dados vindos de usuários pouco inteligentes, ou dados vindos de outras IAs, isso na verdade é um processo de adaptação da IA (eu diria de qualquer inteligência, artificial ou não), ela vai tentar assumir o mesmo nível de linguagem e formato de tomada de decisão do grupo ao qual está pertencendo, é uma capacidade de adaptação da inteligencia para ser aceita em grupos, por isso se formam as bolhas por ai :D, então quanto mas dados porcaria ela recebe, mais burra fica, é necessário muito cuidado ao treinar modelos, principalmente com informações colhidas de chats com clientes ou documentos da empresa, pois se esses dados não forem de alta qualidade já viu oque pode acontecer né? Eu recomendaria um modelo próprio pré treinado generalista e uma base de dados própria para adicionar ao treinamento baseado em um banco de dados vetorial para alimentação desses dados, antecipe o tamanho dos dados pois quanto mais treinamento maior o modelo fica e assim, mais processamento e mais memória Ram. E muito cuidado com o que entra, pois é que nem criança, aprende tudo que não presta :D
Seu projeto é muito legal, eu acho que tem potencial inclusive para virar um serviço, Boa sorte.