Modelos de LLM sendo testados para resolver problemas dentro do Factorio
Eu estava lendo este artigo, porque me chamou a atenção alguém ter buscado utilizar o jogo Factorio, que é um jogo em que você atua como engenheiro e o objetivo final é você alcançar coisas muito sofisticadas como o lançamento de um foguete.
Como os benchmarks de LLM's estão aparecendo aos montes, a ideia foi colocar em um ambiente controlado para se ter uma ideia de como eles resolveriam as coisas, e o resultado demonstrou que alguns LLM's tem uma sofisticação maior em resolver determinados problemas, mas mesmo com estes problemas sendo resolvidos, não chegaram a algo satisfatório.
Bom, eu deixo o restante do trabalho para o artigo que esta em inglês, mas vale o esforço ler para entender melhor os resultados.
Forte Abraço,