Opa, eae JJunqueira. Ótimo texto, de fato temos até poucas ferramentas de análise de código que leva em consideração todo o contexto, e acredito que a implantação de inteligência artificial nessa área ainda está, de certa forma, engatinhando.
A utilização do ChatGPT (que seria um GPT-3.5) ou do GPT-3 podem ser uma boa ideia, apesar de que seriam caros por serem fechados, e provavelmente poderiam cair em alguma política da OpenAI sobre má utilização. A mesma coisa pode acontecer com o AutoTrain da HuggingFace, que nem sequer possui precificação. A facilidade tem seu preço.
Hoje em dia com a comunidade open-source cada vez mais aberta, não creio que uma pessoa precise passar por todas as cadeiras para fazer um modelo desse nível do zero, entretanto se faz necessário um conhecimento acerca dos modelos já existentes, e como eles funcionam.
Em relação a modelos open source, de relevantes temos o GPT-NeoX e o GPT-J, ambos da Eleuther.ai. Você também pode utilizar o BigScience Bloom, que possui um modelo gigantesco já pronto.
Obviamente qualquer modelo que tu for se basear para fazer uma solução desta vai precisar de um fine tuning para seu caso de uso, geralmente repassando um JSON ou CSV contendo o seu conteúdo e a resposta que tu espera. No seu caso, um monte de snippet e respostas feitas de maneira manual.
Entretanto, se levar em consideração que você vai utilizar um modelo já pronto, você pode utilizar o que se é chamado de few-shot learning, que, na prática, você utiliza um modelo já pronto e adiciona algumas coisinhas a mais para ele entender o que você tá querendo dizer. Considerando que ele já tem um treinamento prévio, o modelo entende mais fácil, mesmo se você passar menos dados.
Utilizando um modelo como o GPT-NeoX é possível fazer o que tu quer, ainda mais se você utilizar um serviço hospedado por terceiros, como o NLP Cloud, que permite também o fine tuning de modelos.
Espero que as informações que eu passei acima te ajudem no seu projeto. Sucesso!