O objetivo é melhorar a fase de inferência, quando os modelos geram respostas baseadas em prompts de texto. Como parte desse esforço, a Apple desenvolveu uma solução chamada ReDrafter.

Tradicionalmente, modelos de linguagem geram respostas token por token, revisando repetidamente o conteúdo já produzido para garantir consistência, o que consome tempo e memória. O ReDrafter busca mitigar esse problema ao criar “rascunhos” por meio de uma rede neural menor, que faz previsões sobre o que o modelo principal geraria. O rascunho é então enviado ao modelo maior, que revisa e aceita as partes corretas, reduzindo redundâncias e acelerando o processo.

Para viabilizar essa abordagem, a Apple integrou o ReDrafter à biblioteca TensorRT-LLM, projetada para otimizar a inferência de grandes modelos de linguagem em GPUs da Nvidia. Os testes mostraram um aumento de até 2,7 vezes na velocidade de geração de tokens por segundo.

Informações adicionais: [MacMagazine](https://macmagazine.com.br/post/2024/12/18/apple-colabora-com-nvidia-para-diminuir-tempo-de-inferencia-de-llms/)

Apple colabora com Nvidia para aumentar desempenho de modelos de linguagem

O objetivo é melhorar a fase de inferência, quando os modelos geram respostas baseadas em prompts de texto. Como parte desse esforço, a Apple desenvolveu uma solução chamada ReDrafter. Tr...