Amigo, você está tentando meter um elefante dentro de um fusca.
Chat GPT é um modelo antes de tudo. Poderia ser replicado em qualquer linguagem, o seu core é feito no maravilhosissímo C/C++, como já foi dito pelos colegas em outros comentarios. Torch é uma boa biblioteca para redes neurais e é em Lua. Lua diferente do Python, só tem tabelas kkk
Outro detalhe: Você sabe que Assembly nem tem variavéis? Assembly não tem laços For, While, Foreach etc. A linguagem em baixo nivel mais proxima é Assembly. C/C++ também são alto nivel, no maximo médio nivel. O Fato delas terem ponteiros não faz delas totalmente baixo nivel. Alías, temos também Fortran e Cobol, todas as 4 citadas são compiladas para codigo de maquina igualzinho o Assembly. Não faz muito sentido escrever uma rede neural em X ou Y se o que importa na rede é a arquitetura e a qualidade dos dados em que foi treinada.
Se não me engano o GPT foi desenvolvido pela Google, então liberado para uso com outras entidades, como Microsoft, OpenAI e por aí vai. Não é muito lógico pensar que entre as maiores empresas de tecnologia do mundo, contando com centenas de engenheiros MUITO qualificados, NIGUÉM tenha percebido que desenvolver o GPT em Python era um problema absurdamente grande kkkk
Finalizando: Uma rede neural que chegue proximo a capacidade humana como você deseja, já não é como o exemplo que abri o comentario, é: Colocar um Boing 747 dentro do mesmo fusca(e nem precisa tirar o elefante de dentro).
Espero ter ajudado, :)