Não vejo isso sendo um passo mais perta de uma "AGI" (claro que vai variar muito da definição de cada um sobre, um Akinator da vida poderia ser considerado por abordar diversos temas?).
No que vejo, continua possuindo o mesmo problema de apenas interpretar coisas e entregar "resumos" dos treinamentos. Ou seja, seria como se estivessemos sempre olhando para o retrovisor.
Interpretar imagem e áudio não aproxima de um cenário onde algum GPT consiga tomar decisões efetivamente (ao invés de olhar para o retrovisor, olhar para frente mesmo). Se eu estiver utilizando no meu celular e pedir para ligar para alguém, ele não vai identificar o ambiente que está rodando, pesquisar para descobrir como se faz uma ligação nesse ambiente e então executar o comando. Se pedir para criar qualquer coisa nova de fato, não vai ter essa capacidade, apenas será uma interpretação dos conteúdos usados no treinamento.
Acho que esse tipo de evolução é mais um grande passo para uma nova grande mudança na interface humano-computador, ou como lidamos com a tecnologia em geral. Assim como mouse/teclado foi na época, os smartphones, telas touch, assim por diante. Ainda estão tentando emplacar realidade aumentada com os óculos, mas aproveitar o smartphone que a maioria já possui para mudar a forma de interagir com as coisas já bem mais simples mesmo.
Sem citar o quão incrível seria para a acessibilidade em geral, um cego apontar o celular, perguntar onde está e receber uma resposta completa e detalhada. Quando isso caminhar para vestíveis, olhar para as mãos e perguntar quanto dinheiro está segurando (conferir um troco por exemplo).