Executando verificação de segurança...
5

Empresas de IA reconhecem que métodos atuais de treinamento atingiram limitações

Essas companhias estariam enfrentando atrasos e desafios inesperados ao buscar modelos de linguagem cada vez maiores, explorando novas técnicas de treinamento para que algoritmos possam “pensar” de maneira mais similar aos humanos. Cientistas e pesquisadores acreditam que essas abordagens, que sustentam o recém-lançado modelo “o1” da OpenAI, podem transformar a corrida tecnológica em IA, além de impactar significativamente a demanda por recursos essenciais para essas empresas, como energia e tipos de chips especializados.

Ilya Sutskever, cofundador da OpenAI e da Safe Superintelligence (SSI), afirma que os ganhos obtidos com a ampliação do pré-treinamento — etapa em que um modelo aprende padrões e estruturas de linguagem a partir de uma vasta quantidade de dados não rotulados — chegaram a um ponto de saturação. Sutskever não revelou detalhes sobre as novas abordagens de sua equipe, mas menciona que a SSI está desenvolvendo alternativas para ampliar o pré-treinamento de maneira mais eficiente.

Laboratórios de IA de grande porte têm enfrentado frustrações e resultados aquém do esperado na busca por um modelo que supere o GPT-4 da OpenAI, lançado há quase dois anos, conforme apontam fontes próximas ao setor. As “execuções de treinamento” para esses modelos podem custar dezenas de milhões de dólares, exigindo operação simultânea de centenas de chips e enfrentando altas chances de falhas devido à complexidade do hardware. Como o desempenho final só é conhecido após meses de processamento, a incerteza sobre os resultados é um desafio adicional. Outro fator complicador é o consumo massivo de dados, pois os modelos já exauriram quase todas as fontes de dados de fácil acesso. Além disso, a escassez de energia tem dificultado a execução de treinamentos, dada a enorme demanda energética desse processo.

Para superar esses entraves, pesquisadores têm apostado no “cálculo no momento da inferência”, técnica que aprimora modelos existentes durante o uso real (fase de inferência). Em vez de optar imediatamente por uma única resposta, o modelo gera e avalia múltiplas alternativas em tempo real, escolhendo a melhor opção. Essa abordagem permite que os modelos usem maior capacidade de processamento em tarefas complexas, como problemas matemáticos, programação e operações que exigem raciocínio avançado. Segundo Noam Brown, pesquisador da OpenAI, um bot que “pensa” por 20 segundos em uma rodada de pôquer apresentou o mesmo ganho de desempenho que um modelo escalado em 100 mil vezes e treinado por 100 mil vezes mais tempo. Essa é a técnica implementada pela OpenAI em seu modelo “o1”.

Carregando publicação patrocinada...
3

Considerando que os modelos atuais chegaram a um ponto de estagnação, seja por escassez de novos exemplos (como são chamadas os dados de treinamento) ou por limitações tecnológicas, talvez fosse o momento de criar modelos por contexto, como fazemos na vida prática (consultores em engenheria, mecânica, as diferentes especializações médicas, psicólogos etc). Esses modelos são especialistas mais eficazes, como a própria matéria apontou no caso do jogador de pôker. Nessa nova situação, modelos de entrada decidem qual sub-modelo consultar. No caso de intersecção de contextos, um modelo de saída avaliaria a combinação de inferências para gerar uma única resposta ou apresentar algumas respostas para que o usuário exerça seu poder de escolha. Perguntas idênticas, geram a mesma resposta todas as vezes?

Dizem que "o pato voa mal, anda mal, nada mal" semelhante a alguém que sabe um pouco sobre várias coisas, não se destaca em nenhuma delas. Em caso semelhantes, a versatilidade é vista como um defeito. (anônimo)

A citação acima faz muito sentido no caso dos modelos GPT gigantes, considerando a eficiência nas etapas de treinamento e inferência.

2

Já li alguns paper que exploravam essa idéia, tinha um que funcionava como o gerente que decidia para qual modelo enviar a questão, e tinha outro paper que enviava a pergunta para diferentes modelos especialistas e depois consolidava tudo em uma unica resposta.

Se a memória não me falha, a maior vantagem desses modelos eram o ganho de eficiência e de menor consumo energético, porém nenhum deles tinha um ganho relevante de qualidade de resposta, havia sim um ganho, mas não de maneira elevada.

Li esses paper a 6 meses atrás, e eles tinham sido recém lançados, talvez as coisas hoje em dia tenham mudado.

0
2