A grosso modo, temos o contexto textual "engenharia de prompt" e podemos ter agora o contexto "vetorial" que ela mesmo gera. Deveria ter alguma maneira de não precisar sempre mandar ambos para que ela possa continuar uma conversa por exemplo. Agora comparar um modelo 1b com 400b é sacanagem! kkkkk claro que o 400b vai ser melhor, o custo as vezes bem menor, se contar o tempo a precisão, etc.. Para algumas aplicação é obvio que llm menores são bem melhores.. vai de cada projeto..

A maior parte das empresas são PMEs. Elas não têm condições de fazer milhares de requisições ao dia para um modelo de 400 bilhões de parâmetros. 

É verdade que, de maneira geral, como você disse, a performance de um modelo de 1 bilhão (ou 8 bilhões) de parâmetros, é pior do que a performance do modelo de 400 bilhões. Mas, o custo para se utilizar um modelo de 400 bilhões é muito mais alto.

Assim, para PMEs, compensa investir em profissionais que possam utilizar engenharia de prompt, RAG e fine-tuning para personalizar modelos que possam, para tarefas específicas, ter uma performance similar a modelos maiores, a um custo muito menor.

A grosso modo, temos o contexto textual "engenharia de prompt" e podemos ter agora o contexto "vetorial" que ela mesmo gera. Deveria ter alguma maneira de não precisar sempre mandar ambos...