Muito interessante o experimento. Gostei da conclusão do autor:
Do ponto de vista monetário, gastei 30 dólares no processo todo (no final, eu estava gerando 2-3 edições/variações por minuto). Em outras palavras, não muito.
Embora eu ache que o verdadeiro avanço virá quando DALL-E ficar 10-100x mais barato (e mais rápido). Então, eu imaginaria o seguinte processo de trabalhar com ele (que na verdade é apenas uma otimização em cima do que estou fazendo agora):
- Você escreve uma frase.
- São mostradas a você uma centena de fotos para essa frase, de preferência de regiões muito diferentes do espaço latente.
- Você seleciona as que melhor combinam com o que deseja.
- Volte para o ponto 2, 4-5 vezes, obtendo sempre melhores resultados.
- Agora você pode escrever uma frase para o que gostaria de alterar (editar) e a imagem original seria usada como linha de base. Volte para o ponto 2 até ficar satisfeito.