Apple colabora com Nvidia para aumentar desempenho de modelos de linguagem
O objetivo é melhorar a fase de inferência, quando os modelos geram respostas baseadas em prompts de texto. Como parte desse esforço, a Apple desenvolveu uma solução chamada ReDrafter.
Tradicionalmente, modelos de linguagem geram respostas token por token, revisando repetidamente o conteúdo já produzido para garantir consistência, o que consome tempo e memória. O ReDrafter busca mitigar esse problema ao criar “rascunhos” por meio de uma rede neural menor, que faz previsões sobre o que o modelo principal geraria. O rascunho é então enviado ao modelo maior, que revisa e aceita as partes corretas, reduzindo redundâncias e acelerando o processo.
Para viabilizar essa abordagem, a Apple integrou o ReDrafter à biblioteca TensorRT-LLM, projetada para otimizar a inferência de grandes modelos de linguagem em GPUs da Nvidia. Os testes mostraram um aumento de até 2,7 vezes na velocidade de geração de tokens por segundo.
Informações adicionais: MacMagazine