Executando verificação de segurança...
6

Como a Computação de Alto desempenho ajudou na construção do Llama 3 da Meta

Nota do Autor: "Ontem fiquei bastante empolgado com o lançamento do llama 3, tanto que vi uma entrevista do Zuck que foi lançada: ele fala de maneira bastante confiante de como o llama 3 é um diferencial e, de fato, acho que um dos melhores e maiores benefícios do llama foi para a comunidade crescente de pesquisadores e desenvolvedores. Transformar o modelo em open source é uma boa estrátegia que diferencia a empresa completamente da OpenIA Sendo honesto, estou bastante confiante em como a Meta está trabalhando para alcançar o AGI(no fundo sei que as empresas estão usando usando isso como marketing, mas não dá para ignorar que está sendo uma corrida bem interessante :D)"

Introdução

Como todo desenvolvedor e entusiasta de inteligência artificial, fiquei bastante entusiasmado com o lançamento do modelo de código aberto do Meta. estou bastante curioso para saber como eles conseguiram esse resultado por meio de hardware e, certamente, como usaram computadores de alto desempenho para treinar esses modelos e integrá-los às tecnologias de mídia social existentes na empresa.

O objetivo deste artigo é demonstrar a importância dos computadores de alto desempenho na construção desses modelos, que estão cada vez mais presentes no nosso dia a dia. Parte dele está sendo escrito com base em notas divulgadas no blog do Meta. A empresa investiu em uma infraestrutura de hardware robusta para gerenciar grandes cargas de trabalho e, ao mesmo tempo, fornecer resultados confiáveis.

Blocos de Construção

Na busca pelo desenvolvimento da próxima onda de IA avançada, uma base crucial reside em novos computadores poderosos, capazes de realizar quintilhões de operações por segundo. A RSC ajuda os pesquisadores de IA da Meta a construir novos e melhores modelos de IA que podem aprender com trilhões de exemplos; trabalhe em centenas de idiomas diferentes; analise perfeitamente texto, imagens e vídeo juntos; desenvolver novas ferramentas de realidade aumentada; e muito mais.

Embora a Meta tenha uma longa história de construção de infraestrutura de IA, os detalhes sobre o AI Research SuperCluster (RSC), equipado com 16.000 GPUs NVIDIA A100, foram compartilhados pela primeira vez em 2022. O RSC impulsionou a pesquisa de IA aberta e responsável da Meta, facilitando o desenvolvimento de sua onda inicial de modelos avançados de IA. Foi, e continua a ser, fundamental na evolução de projetos como Llama e Llama 2, juntamente com a criação de modelos sofisticados de IA para diversas aplicações, incluindo visão computacional, PNL, reconhecimento de voz, geração de imagens e até codificação.

A infraestrutura de computação de alto desempenho é um componente crítico no treinamento de modelos tão grandes, e a equipe de pesquisa de IA da Meta vem construindo esses sistemas de alta potência há muitos anos. A primeira geração dessa infraestrutura, projetada em 2017, conta com 22 mil GPUs NVIDIA V100 Tensor Core em um único cluster que executa 35 mil trabalhos de treinamento por dia. Até agora, esta infraestrutura estabeleceu o padrão para os pesquisadores da Meta em termos de desempenho, confiabilidade e produtividade.

Como funciona?

Os clusters de IA mais recentes da Meta continuam a se basear nos sucessos e nas lições aprendidas com o RSC. O foco da empresa continua na construção de sistemas de IA ponta a ponta, com ênfase principal no aprimoramento da experiência e da produtividade de pesquisadores e desenvolvedores. A eficiência das malhas de rede de alto desempenho nesses clusters, juntamente com decisões cruciais de armazenamento, combinadas com a inclusão de 24.576 GPUs NVIDIA Tensor Core H100 em cada um, permite que ambas as versões do cluster acomodem modelos maiores e mais complexos do que aqueles suportados pelo RSC. Este avanço abre caminho para novos progressos no desenvolvimento de produtos GenAI e na pesquisa de IA.

Image description

Rede de Alto Desempenho

Com esses objetivos em mente, a Meta construiu um cluster equipado com uma solução de malha de rede de acesso remoto direto à memória (RDMA) sobre Ethernet convergente (RoCE), baseada no Arista 7800 com switches de rack OCP Wedge400 e Minipack2. O segundo cluster é equipado com uma estrutura NVIDIA Quantum2 InfiniBand. Ambas as soluções possuem interconexões de endpoints de 400 Gbps. Através da utilização destas duas configurações distintas, o Meta visa avaliar a adequação e escalabilidade de vários tipos de interconexão para treinamento em larga escala, obtendo assim insights valiosos que informarão o projeto e a construção de clusters ainda maiores e ampliados no futuro. Ao projetar cuidadosamente a rede, o software e as arquiteturas de modelo, a Meta utilizou efetivamente os clusters RoCE e InfiniBand para grandes cargas de trabalho GenAI, incluindo o treinamento contínuo do Llama 3 no cluster RoCE, sem encontrar gargalos de rede.

Computação e Processamento

Ambos os clusters são construídos usando Grand Teton, a plataforma de hardware de GPU aberta projetada internamente pela Meta, que contribuiu para o Open Compute Project (OCP). Grand Teton baseia-se em inúmeras gerações de sistemas de IA, integrando interfaces de energia, controle, computação e malha em um único chassi para melhorar o desempenho geral, a integridade do sinal e a eficiência térmica. Ele oferece rápida escalabilidade e flexibilidade em um design simplificado, facilitando a implantação rápida em frotas de data centers e fácil manutenção e escalabilidade. Juntamente com outras inovações internas, como nossa arquitetura de rack e potência Open Rack, Grand Teton permite a construção de novos clusters adaptados para aplicações atuais e futuras na Meta.

Performance

Alinhada ao compromisso da Meta de construir clusters de IA em grande escala, a empresa prioriza a maximização do desempenho e da facilidade de uso simultaneamente, sem comprometer um pelo outro. Este princípio constitui a base do esforço da Meta para desenvolver os melhores modelos de IA da categoria.

À medida que a Meta se aventura na vanguarda dos avanços dos sistemas de IA, a abordagem mais eficaz para avaliar a escalabilidade reside na construção, otimização e teste diretos de projetos. Embora os simuladores ofereçam informações valiosas, sua utilidade tem limites. Ao longo desta jornada de design, a Meta conduziu comparações de desempenho entre clusters pequenos e grandes para identificar possíveis gargalos. O gráfico abaixo ilustra o desempenho coletivo do AllGather, representado como largura de banda normalizada em uma escala de 0 a 100, durante a comunicação entre um grande número de GPUs em tamanhos de mensagens onde o desempenho do telhado é antecipado.

Carregando publicação patrocinada...
3

uma pergunta leiga: esses LLM "open source" são realmente open source?

não cheguei a buscar a fundo como realmente funciona um modelo de IA (só raspei a superfície de entender o básico de como eles funcionam e pouquíssimo sobre a ideia por trás do treinamento)

nisso me surgiu a dúvida da pergunta inicial do meu comentário.

tem como conseguir todos os dados usados pra "construir" esse modelo e vc mesmo fazer ele?
(claro que isso seria tecnicamente impossível num setup doméstico, mas da pra entender a premissa da questão)

porque no pouco que pesquisei sobre, essas LLM's são um "objeto pronto" que vc só baixa e usa, mas não consegue modificar oq tem ali dentro e inserir novos dados (me corrija se eu estiver errado quanto a isso)

lendo seu post vi que vc tem um conhecido mais vasto que o meu nesse assunto, então queria entender essa questão inicial que eu fiz.

3

Excelente pergunta! O LLama, em linhas gerais, não é totalmente open source. Na verdade ele se encaixaria mais em algo chamado de "Open Weights". Dizer que algo é Open Weights significa dizer que o conhecimento aprendido por aquele modelo de rede neural está disponível para uso e modificação.No entanto, o código de treinamento, o conjunto de dados original, os detalhes da arquitetura do modelo e a metodologia de treinamento não são fornecidos. Ainda assim, tem uma discussão sobre ele se encaixar ou não nessa categoria devido a algumas regras que foram colocadas na utilização desses pesos.

Além disso, eles acabaram por não divulgar todos os requisitos necessários para poder fazer o modelo funcionar localmente como você se referiu e, mesmo que, eles divulgassem os requisitos necessários para rodar levaria cerca de 130 anos para treinar em desktop na melhor das condições.

Existe um modelo interessante que pode ser classificado como Open Source chamado Olmo vale a pena conferir

Acredito que o termo "open source" para esses modelos criados por grandes empresas é mais uma simplificação para o público geral No fim das contas , devido aos altos requisitos para poder personalizar e modificar o LLama3 é algo que apenas a academia tem certo interesse se a coisa toda é "open source" ou não