Gostei do teu texto, só uma dúvida: deu a impressão quepara chegar ao produto escalar de atenção deve-se utilizar a função softmax. Pode ter sido mera interpretação minha equivocada, inclusive. Mas, tenta deixa esse exemplo como não sendo exaustivo para o conceito de produto escalar e o uso da função softmax mas outras podem ser utilizadas também, como sugestão de melhoria.
2
1
Muito obrigado pela sugestão hbm. Acredito que o editor de math aqui do TabNews fez com que a equação não ficasse tão clara. Vou tentar resolver.