Como funciona a IA: Bibliotecaria e Cartomante · Oletros

Se usar a IA (LLM) ja esta fazendo parte do nosso dia a dia, que tal entender um pouco mais sobre como ela funciona ?

OBS: Durante o texto, sempre que me referir a IA, estou falando na IA baseada em LLM (chatGPT, gemini, claude, deepseek, qwen, etc) - que eh o padrao de mercado neste momento.

Bibliotecaria e Cartomante

Uma metafora que gosto para visualizar o funcionamento de uma IA eh imagina-la como um composto de Bibliotecaria habilidosa com Cartomante desajustada.

Enquanto Bibliotecaria habilidosa, a IA foi treinada com milhares de informacoes e consegue lidar com esta quantidade absurda de dados de forma muito eficiente.

Mas quando vai formular uma resposta, entra em cena a Cartomante desajustada: o texto (ou imagem, video, etc) gerado pela IA, apesar de muitas vezes fazer sentido para o olhar humano, eh fruto de estatisticas e probabilidades - de fato ela "chuta" (pura advinhacao mesmo) cada palavra (ou pixel) conforme vai usando para montar a saida.

Ta, eu sei que parece esquisito - a saida eh tao coerente que fica dificil acreditar nisso - mas eh pura magica matematica.

Baseado no prompt de entrada, a IA procura continuar aquele texto e vai "chutando" as palavras que devem ser usadas para formar a saida. Eh um chute baseado na matematica, mas continua sendo um chute. E tambem por isso que acontecem as alucinacoes ou dificuldade de interpretacao do prompt.

O que eh fundamental aqui eh isso: entender que a IA nao eh inteligente (ou pelo menos nao eh inteligente no sentido leigo da palavra, como uma pessoa ou como imaginamos o J.A.R.V.I.S. do Iron Man).

A IA eh util, nao tenha duvidas - nem se questiona isso.

Mas tenha em mente isso - pela forma como um LLM funciona, nem sempre a resposta estara certa, por mais coerente que ela pareca.

Alem disso, a IA fornece respostas baseada no seu treinamento - entao nao espere criatividade real ou solucoes mirabolantes: quase tudo que ela gerar eh fruto do que foi alimentado anteriormente.

Se voce precisa de uma ideia original, mesmo acrescentando temperatura e certo grau de randomicidade - dificilmente a IA vai gerar isso.

Ela pode te ajudar com sugestoes ou caminhos - mas tenha em mente que por conta do modo como a IA funciona, sao caminhos que de alguma forma ja foram trilhados.

Um esquema simplificado do funcionamento de uma IA (LLM)

A IA eh alimentada ("treinada") com milhares de informacoes (pdfs, sites - qualquer coisa que possa servir de fonte razoavelmente confiavel de dados), quebrando isso me pecas menores ("tokens") e matematicamente manipulaveis ("embeddings"), criando uma base de dados gigantesca correlacionando estes tokens entre si (Matrizes multidimensionais - tensores) e associando pesos para a similaridade destes tokens nas matrizes (os tais "bilhoes de parametros").

Quando voce faz uma pergunta a IA, baseado nos pesos e similaridades dos tokens de entrada (a pergunta), a IA vai "chutando" a proxima palavra (o token) de saida e assim montando a resposta.

Uma imagem aproximada do funcionamento da IA seria:

Trem colocando trilhos a sua frente conforme avanca

Vamos aprofundar um pouco

1. Alimentacao de Dados ("Treinamento")

A IA eh treinada com enormes volumes de dados textuais, que podem incluir livros, artigos cientificos, sites, PDFs, codigo-fonte e ate conversas informais. Esses dados servem como a "materia-prima" para ensinar o modelo a entender e gerar linguagem.
Durante o treinamento, os dados sao processados em lotes (chamados de "batches"), e o modelo aprende gradualmente a identificar padroes, relacoes e contextos.

2. Tokenizacao: Quebrando o Texto em Pecas Menores

O texto eh dividido em unidades menores chamadas tokens. Um token pode ser uma palavra inteira (como "cachorro"), parte de uma palavra (como "gato" e "s" em "gatos"), ou ate mesmo um caractere isolado, dependendo da linguagem e do modelo.
Cada token eh convertido em uma representacao numerica, permitindo que o modelo processe matematicamente o texto. Esse processo eh chamado de tokenizacao.

3. Representacao Matematica dos Tokens

Os tokens sao transformados em vetores densos chamados embeddings. Esses vetores capturam informacoes sobre o significado e o contexto de cada token. Por exemplo:
- Tokens como "rei" e "rainha" terao embeddings semelhantes porque estao relacionados semanticamente.
- Tokens como "carro" e "banana" terao embeddings muito diferentes.
- Esses embeddings sao organizados em matrizes multidimensionais, tambem conhecidas como tensores, que permitem ao modelo processar grandes quantidades de informacoes simultaneamente.

4. Aprendizado de Padroes e Relacoes

Durante o treinamento, o modelo ajusta bilhoes de parametros (pesos e vies/bias) para aprender as relacoes entre os tokens. Esses parametros determinam como os embeddings sao combinados e processados para gerar respostas.
O modelo usa uma tecnica chamada rede neural transformadora (transformer), que permite que ele entenda o contexto de cada token em relacao aos outros. Isso eh feito por meio de mecanismos como self-attention, que ajuda o modelo a focar em partes importantes do texto.

5. Correlacionando Tokens em Matrizes Multidimensionais (Tensores)

As relacoes entre tokens sao armazenadas em estruturas matematicas complexas, como tensores. Esses tensores podem ser vistos como tabelas gigantescas com muitas dimensoes, onde cada celula contem informacoes sobre como dois ou mais tokens estao conectados.
Por exemplo:
- Se o modelo le a frase "O gato mia", ele cria conexoes entre os tokens "gato" e "mia".
- Essas conexoes sao armazenadas em tensores, que sao constantemente atualizados durante o treinamento.

6. Ajuste de Pesos e Parametros

O modelo ajusta seus parametros para melhorar suas previsoes. Isso eh feito usando um algoritmo chamado backpropagation, que calcula o erro entre a resposta do modelo e a resposta correta (baseada nos dados de treino).
Com base nesse erro, os pesos sao ajustados para minimizar erros futuros. Esse processo eh repetido milhoes (ou bilhoes) de vezes ate que o modelo atinja um bom nivel de desempenho.

7. Geracao de Respostas

Apos o treinamento, o modelo pode usar o que aprendeu para gerar respostas ou realizar tarefas especificas. Por exemplo:
- Ao receber uma pergunta como "Qual eh a capital do Brasil?", o modelo consulta suas matrizes de tokens e pesos para encontrar a resposta mais provavel ("Brasilia").
- Ele tambem pode gerar textos criativos, traduzir idiomas ou ate escrever codigo, dependendo de como foi treinado.

8. Generalizacao e Contexto

Uma das habilidades mais impressionantes desses modelos eh sua capacidade de generalizar. Mesmo que nunca tenham visto exatamente a mesma frase antes, eles podem usar o que aprenderam para entender novos contextos.
Isso eh possivel porque os embeddings e os pesos capturam padroes universais da linguagem, como gramatica, semantica e ate nuances culturais.

Exemplo Pratico

Imagine que voce esta perguntando ao modelo:
"Quem foi Albert Einstein?"

Entrada: A frase eh dividida em tokens: ["Quem", "foi", "Albert", "Einstein", "?"].
Processamento: Cada token eh convertido em um embedding e processado em uma rede neural transformadora.
Contexto: O modelo consulta suas matrizes multidimensionais para encontrar conexoes entre "Albert Einstein" e conceitos como "fisico", "teoria da relatividade" e "Nobel".
Saida: O modelo gera uma resposta como:
"Albert Einstein foi um fisico teorico famoso por desenvolver a teoria da relatividade."

Mas por que "bibliotecaria habilidosa" e "cartomante desajustada" ?

Eh uma metafora ! Procura mostrar de forma ludica e acessivel, especialmente para quem esta tentando entender o conceito de IA sem entrar em detalhes tecnicos. Mas vamos analisar cada parte da metafora:

1. "Bibliotecaria Habilidosa"

Por que ?
- A IA pode ser vista como uma bibliotecaria porque ela organiza e acessa uma quantidade massiva de informacoes (como livros em uma biblioteca). Ela "indexa" dados, encontra padroes e recupera informacoes relevantes com base no contexto.
- Por exemplo, quando voce faz uma pergunta, a IA busca rapidamente em sua "biblioteca interna" de conhecimentos treinados para encontrar a resposta mais adequada.
- A metafora sugere que a IA nao apenas armazena informacoes, mas tambem as organiza de maneira eficiente e estruturada, como uma boa bibliotecaria faria.

2. "Cartomante desajustada"

Por que ?
- A IA, especialmente modelos de linguagem generativa, podem parecer "adivinhar" respostas ou prever o que vem a seguir, como um cartomante que interpreta padroes e probabilidades.
- No entanto, a IA nao tem intuicao ou consciencia — ela opera com base em estatisticas e padroes aprendidos durante o treinamento. Isso pode fazer suas respostas parecerem imprevisiveis ou inconsistentes.
- Alem disso, a IA pode gerar multiplas interpretacoes ou ate mesmo contradicoes, dependendo do contexto ou da forma como a pergunta eh feita, reforcando essa ideia de algo "caotico" ou "imprevisivel".
- A metafora da cartomante sublinha a natureza probabilistica da IA: ela nao tem certezas absolutas, mas sim "apostas" baseadas em padroes. Ja o adjetivo "desajustada" ilustra bem a falta de coerencia ou linearidade que pode surgir em algumas interacoes com a IA.

3. Misturando as Metaforas: Bibliotecaria e Cartomante

Essa combinacao eh interessante porque reflete dois aspectos aparentemente opostos da IA:

Organizacao e precisao (bibliotecaria): A IA eh uma ferramenta poderosa para processar e recuperar informacoes de maneira estruturada.
Imprevisibilidade e criatividade (cartomante): A IA pode gerar respostas inesperadas, criativas ou ate mesmo erroneas, dependendo do contexto.

Juntas, as duas metaforas ajudam a explicar por que a IA eh tao versatil, mas tambem por que ela pode ser frustrante ou confusa em alguns momentos.

4. Limitacoes desta Metafora

Ha algumas limitacoes que vale a pena mencionar:

Falta de consciencia: Ao contrario de uma bibliotecaria ou cartomante, a IA nao tem intencao ou consciencia. Ela nao "escolhe" deliberadamente o que dizer ou como interpretar algo; tudo eh baseado em padroes estatisticos.
Risco de antropomorfizacao: Comparar a IA a figuras humanas (como uma bibliotecaria ou cartomante) pode levar algumas pessoas a atribuirem caracteristicas humanas aa IA, o que pode gerar mal-entendidos sobre suas capacidades reais.
Complexidade tecnica omitida: A metafora nao aborda os aspectos matematicos, computacionais ou de aprendizado de maquina que realmente fazem a IA funcionar.

Um pouco de matematica

A capacidade de processamento paralelo em GPUs que permitiu o uso da IA crescer de forma exponencial.

Mas porque depende tanto de GPU ?

1. Por Que as GPUs São Essenciais?

As operações matemáticas envolvidas no treinamento de redes neurais são extremamente intensivas em termos de computação. Aqui estão os motivos pelos quais as GPUs são ideais:

a) Paralelismo Massivo

As GPUs possuem milhares de núcleos que podem realizar operações simultaneamente. Isso é crucial porque muitas das operações em redes neurais, como multiplicações matriciais e atualizações de gradientes, podem ser paralelizadas. Por exemplo:

Multiplicação de matrizes ( $W \cdot x$ ) pode ser decomposta em várias multiplicações independentes.
O cálculo de gradientes para diferentes amostras de treinamento pode ser feito em paralelo.

b) Eficiência em Operações de Álgebra Linear

As GPUs são otimizadas para operações de álgebra linear, como multiplicações matriciais e vetoriais, que são fundamentais para redes neurais. Bibliotecas como CUDA e cuDNN aproveitam essa eficiência.

c) Processamento de Grandes Conjuntos de Dados

Redes neurais modernas lidam com grandes volumes de dados (imagens, texto, etc.) e modelos com milhões de parâmetros. As GPUs têm memória dedicada (VRAM) que permite processar esses dados de forma eficiente.

d) Redução do Tempo de Treinamento

Devido ao paralelismo e à eficiência computacional, as GPUs podem reduzir drasticamente o tempo necessário para treinar modelos complexos. Por exemplo, um modelo que levaria semanas para ser treinado em uma CPU pode ser treinado em poucas horas em uma GPU.

2. Funções Matemáticas como Modelos de Relações

A ideia de que "uma função pode descrever qualquer coisa" está enraizada na matemática e na teoria das funções. Essa afirmação deriva da capacidade de funções matemáticas de modelar relações entre variáveis, sejam elas simples ou extremamente complexas. Essa ideia é fundamental para a Inteligência Artificial (IA), especialmente no contexto de redes neurais e aprendizado de máquina.

Uma função matemática é uma regra que mapeia entradas (ou variáveis independentes) para saídas (ou variáveis dependentes). Por exemplo:

y = f(x)

Essa função pode ser tão simples quanto uma reta ( $y = mx + b$ )

Por que funções podem descrever "qualquer coisa"?

Universalidade das Funções: Na matemática, funções podem ser usadas para aproximar ou representar quase qualquer relação entre variáveis, desde que a função seja suficientemente flexível. Isso é formalizado em teoremas como o Teorema da Aproximação Universal.
Transformações Não-Lineares: Funções não-lineares permitem capturar relações complexas que não podem ser descritas por funções lineares simples. Por exemplo, uma função polinomial de grau alto pode ajustar curvas complexas.
Composição de Funções: Ao combinar várias funções (por exemplo, através de operações como soma, multiplicação ou composição), podemos criar modelos ainda mais expressivos. Em IA, isso é feito nas camadas de uma rede neural.

Teorema da Aproximação Universal

O Teorema da Aproximação Universal é um resultado matemático fundamental que explica por que redes neurais podem ser tão poderosas. Ele afirma que:

Uma rede neural feedforward com uma única camada oculta e um número suficiente de neurônios pode aproximar qualquer função contínua em um intervalo compacto, desde que a função de ativação seja não-linear e contínua.

Isso significa que, teoricamente, uma rede neural pode aprender qualquer padrão ou relação presente nos dados, desde que tenha capacidade suficiente (número de neurônios e camadas).

Exemplo Prático:

Suponha que você deseja modelar a relação entre a temperatura ( $x$ ) e a demanda por sorvete ( $y$ ). Essa relação pode ser complexa, envolvendo fatores como clima, eventos sazonais e preferências culturais. Uma função matemática, como uma rede neural, pode aprender essa relação a partir de dados históricos.

3. Aplicação na IA: Redes Neurais como Funções

Redes neurais são essencialmente funções compostas parametrizadas. Cada camada de uma rede neural aplica uma transformação matemática às entradas, e a combinação dessas transformações resulta em uma função final que mapeia entradas para saídas.

Estrutura de uma Rede Neural:

Entrada ( $x$ ): Um vetor de características.
Pesos ( $W$ ): Parâmetros ajustáveis que definem a função.
Bias ( $b$ ): Termos adicionais para ajuste fino.
Função de Ativação ( $f$ ): Introduz não-linearidade.

A saída de uma rede neural pode ser escrita como:

\hat{y} = f^{[L]}(W^{[L]} \cdot f^{[L-1]}(W^{[L-1]} \cdot (\dots f^{[1]}(W^{[1]} \cdot x + b^{[1]}) \dots ) + b^{[L-1]}) + b^{[L]})

Essa é uma função composta que pode aproximar praticamente qualquer relação, dependendo da arquitetura da rede (número de camadas, neurônios e tipo de função de ativação).

4. Por Que Isso Funciona na IA?

A IA usa funções matemáticas para aprender padrões nos dados. Aqui estão os principais motivos pelos quais isso funciona:

a) Dados como Entradas

Os dados do mundo real (imagens, texto, áudio, etc.) podem ser representados como vetores numéricos. Por exemplo:

Uma imagem pode ser representada como uma matriz de pixels.
Um texto pode ser convertido em um vetor de embeddings.

Esses vetores servem como entradas para as funções matemáticas usadas na IA.

b) Aprendizado Supervisionado

No aprendizado supervisionado, fornecemos pares de entrada ( $x$ ) e saída desejada ( $y$ ) para treinar o modelo. O objetivo é encontrar uma função $f(x)$ que minimize o erro entre as previsões do modelo ( $\hat{y}$ ) e os valores reais ( $y$ ).

c) Backpropagation e Otimização

Usando algoritmos como gradiente descendente, ajustamos os parâmetros da função (pesos e biases) para minimizar a função de custo. Esse processo permite que a função aprenda a mapear entradas para saídas corretamente.

d) Capacidade de Generalização

Uma vez que a função é treinada, ela pode generalizar para novos dados, desde que estes sejam semelhantes aos dados de treinamento. Isso ocorre porque a função aprendeu os padrões subjacentes nos dados.

5. UFA !

Se chegou ate aqui - parabens !!!

Conclusao

Voce nao precisa ser um engenheiro aeronautico para comprar uma passagem e voar na Ponte Aerea Sao Paulo para o Rio.

Tao pouco precisa ser formado em engenheira sanitaria e ambiental para praticar reciclagem.

Ter uma ideia de como a IA funciona eh util para nao cair em armadilhas - tais como enxergar na IA a mesma inteligencia que esperamos em uma pessoa (ela nao tem senso critico !!!)

IA eh uma ferramenta - so isso.

Mas tem dados - muito dados, e eh relaticamente simples pedir para a IA buscar informacoes no que foi treinada (ou pos-treinada via RAG ou outras tecnicas)

E ja que ela nao tem senso critico, voce precisa fazer este papel. Aprecie com moderacao.