Olá pessoal, como vocês estão?

Nesse conteúdo eu estou disposto a compartilhar um pouco do meu conhecimento sobre a arquitetura de transformers, responder a dúvidas de vocês e fazer conexões.

Abaixo segue um trabalho que fiz sobre o assunto quando paguei a cadeira de Algebra Linear do curso de Engenharia de Software:

Documentação sobre Álgebra Linear na Arquitetura de Transformers

A arquitetura de Transformers, conforme descrito no artigo “Attention Is All You Need”, faz uso intensivo de conceitos de álgebra linear para realizar suas operações principais. Vamos explorar como esses conceitos são utilizados na arquitetura, complementando com exemplos práticos.

1. Matrizes e Vetores

Os Transformers usam matrizes e vetores para representar dados e realizar cálculos. Esses elementos fundamentais da álgebra linear são essenciais para a manipulação de dados em redes neurais.

Vetores como Embeddings: Cada palavra no vocabulário do Transformer é mapeada para um vetor numérico, conhecido como embedding, que captura aspectos do seu significado.

Exemplo:
```
"gato" -> [0.2, 0.5, 0.8, -0.1, …]
"cachorro" -> [-0.3, 0.1, 0.7, 0.6, …]
```
Matrizes como Operadores de Transformação: As matrizes atuam como funções que transformam vetores, permitindo que os Transformers modifiquem e combinem informações de forma controlada.

Exemplo: Multiplicar a matriz de atenção por um vetor de embedding resulta em um novo vetor que agrega informações contextuais de outras palavras na frase.

2. Produto Escalar e Produto de Matrizes

O produto escalar e o produto de matrizes são operações centrais na atenção dos Transformers.

Produto Escalar: Revelando Similaridade: Utilizado no cálculo da atenção escalada por dot-product. Dados os vetores de consulta (query) (Q), chave (key) (K) e valor (value) (V), o produto escalar é usado para calcular a similaridade entre a consulta e as chaves:

Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V

Exemplo: Ao calcular o produto escalar entre os embeddings de "gato" (consulta) e "cachorro" (chave), obtemos um valor que representa a sua semelhança semântica.

Produto Matricial: Combinando Informação: Usado em várias partes do modelo para transformar representações.

Exemplo: Em “O gato preto correu”, a matriz de atenção pondera a importância de cada palavra, permitindo que o Transformer crie uma representação da frase que enfatiza “gato” e “correu” como elementos chave.

3. Decomposição em Valores Singulares (SVD)

Embora não explicitamente mencionada no artigo, a decomposição em valores singulares é uma técnica comum na compressão e análise de matrizes em redes neurais, incluindo os Transformers.

Exemplo: Aplicar SVD à matriz de embeddings permite reduzir sua dimensionalidade, diminuindo o custo computacional sem sacrificar informações cruciais.

4. Transformações Lineares

Transformações lineares são fundamentais nas camadas de atenção e nas camadas feedforward.

Projeções Lineares: As consultas, chaves e valores são projetados em diferentes subespaços usando matrizes de pesos. Estas projeções são transformações lineares.

Exemplo: A atenção multi-cabeça utiliza múltiplas projeções lineares para criar diferentes “cabeças” de atenção, cada uma focada em aspectos específicos das relações entre as palavras.
Camadas Feedforward: Cada camada no transformador inclui uma rede feedforward totalmente conectada aplicada separadamente a cada posição. Estas redes são compostas de duas transformações lineares com uma ativação não linear (ReLU) no meio.

Exemplo: Uma camada feedforward pode aprender a reconhecer padrões como a estrutura sujeito-verbo-objeto em uma frase, aprimorando a representação final da frase e sua interpretação semântica.

5. Atenção Multi-Cabeça

A atenção multi-cabeça permite ao modelo focar em diferentes partes da entrada simultaneamente. Isso é feito projetando as consultas, chaves e valores múltiplas vezes com diferentes pesos, aplicando a atenção em paralelo, e concatenando os resultados.

Projeção e Concatenamento: Cada cabeça de atenção realiza operações de projeção e depois os resultados são concatenados.

Exemplo: Na frase “O gato, que estava com fome, comeu o peixe”, diferentes cabeças de atenção podem se concentrar em diferentes relações entre as palavras. Uma cabeça pode se concentrar na relação entre “gato” e “comeu”, enquanto outra pode se concentrar na relação entre “gato” e “fome”, permitindo que o modelo capture a nuance do significado da frase.

6. Normalização de Camada

A normalização de camada é usada para estabilizar e acelerar o treinamento. Isso envolve a normalização das entradas para cada subcamada.

Fórmula da Normalização de Camada:
$\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$
Exemplo: A normalização de camada controla o fluxo de informações e garante um treinamento estável e eficiente.

7. Codificação Posicional

Como os Transformers não têm um mecanismo inerente para capturar a ordem sequencial dos dados, a codificação posicional é adicionada aos embeddings de entrada. Isso é feito através de funções senoidais e cosenoidais de diferentes frequências.

Fórmula da Codificação Posicional:
$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right)$ $PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right)$
Exemplo: As frases “O cachorro mordeu o gato” e “O gato mordeu o cachorro” contêm as mesmas palavras, mas em ordem diferente, o que altera completamente o significado. A codificação posicional permite que os Transformers diferenciem essas frases.

Conclusão

A arquitetura inovadora dos Transformers, em conjunto com os fundamentos sólidos da álgebra linear, inaugurou uma nova era no campo do Processamento de Linguagem Natural. Vetores, matrizes, produtos, transformações lineares e técnicas como SVD desempenham um papel vital no processamento e manipulação da linguagem natural.

Fontes:

Você conhece a arquitetura de transfomers presente nos algoritmos de IA generativa?