Executando verificação de segurança...

3 min de leitura ·

Geração de Imagens com Inteligência Artificial? Passo-a-passo

Como começar com Geração de Imagens com Inteligência Artificial?

O Meu Passo-a-passo:

Estou começando a criar algo para gerar Thumbs de YouTube automaticamente com IA (https://thumbai.io). Estou BEM longe de uma solução mas quero explicar aqui qual foi meu passo-a-passo para começar a brincar com geração de imagens com IA.

É longo o texto pois vou explicar o meu passo-a-passo real, com as cagadas no meio

Primeiro procurei por "Stable Diffusion" no Google mas ao invés de achar o projeto de verdade eu só achava outros produtos em cima dele (por ex, cai nesse e nem funcionou a busca, tentei 3x e nada acontecia https://stablediffusionweb.com/).

Se você não sabe o Stable Diffusion é uma solução parecida com o DALL·E 2 porém é Open-source (código aberto e free).

E se você também não sabe o que é o DALL·E 2 é um projeto da OpenAI que você deve ter visto um monte de imagem gerada com IA postada no Twitter que o utilizou.

Se você também não viu nenhuma imagem gerada por IA recentemente nas suas redes sociais você está vivendo em outro planeta, sorry 🤣

Voltando, então para parar de pegar esse produtos ruins em cima do Stable Diffusion eu busquei por "Stable Diffusion open-source".

Finalmente achei o projeto no GitHub.

Aí vi que era chatinho de configurar e pensei em procurar algo pronto para rodar com Docker (o Edimar deve falar muito sobre Docker no CodeFTW em breve, fica ligado), achei esse aqui, parece ser uma alteração com TensorFlow mas só queria ver se conseguia ter algo funcionando rápido.

Comecei seguindo os passos da section "Ok, show me how to run" e que blz, descobri que esse é para rodar em uma máquina do TensorDock (e paga) e eu quero rodar local. Abortei.

Resolvi buscar outra solução. Aí tentei esse mas acho que vai dar ruim com M2 (M2 é um processador da Apple que vem nos novos Macs).

E realmente deu ruim, deu erro pq não achou uma GPU disponível. Nem tentei entender e vou partir pra algo específico pro M2.

Enquanto rodava a instalação acima já fui vendo como rodar especificamente no M2 pois já desconfiava que ia dar pau.

Ainda estava instalando esse acima e tive um papo com meu amigo Renan Castro sobre outra coisa mas no fim falei o que eu estava fazendo e ele me sugeriu para usar o Colab do Google e já achou um pronto para Stable Diffusion.

Enfim, criei uma cópia dele. Brinquei bem pouco com a cópia dele (só mudei o prompt para um dev ao invés de astronauta).

Aí fui entender melhor o Stable Diffusion e achei esse tutorial no YouTube. Incrível! Assistam!

O interessante é que ele usa esse projeto para gerar as imagens e o cara manja bastante dos parâmetros então já deu várias dicas de como utilizar.

Aí resolvi instalar para testar localmente (vamos ver se vai ir tudo bem no M2) e para minha surpresa é super fácil de instalar e deu certo com o M2. Pronto para começar os testes, veja um dos resultados:

dev

Uma dica legal que ele fala no vídeo é sobre o Lexica. Esse site é um ótimo lugar para aprender como fazer bons prompts.

Enfim, se você quiser dar uma brincada assiste o vídeo do Sebastian Kamph no YouTube porque ele manja muito. Está em Inglês.

Provavelmente vou começar a compartilhar essa jornada através de vídeos dentro do CodeFTW então se quiser acompanhar coloca seu email aqui e se inscreve em nosso canal no YouTube 😉. Já até tenho um gravado que ainda não publiquei.

Eu também nem expliquei o que eu realmente quero fazer no Thumbai.io mas vou contando aos poucos. To fazendo updates sobre esse projeto no Twitter.

Eu sempre vejo essas imagens pela internet, principalmente no Twitter como vc mesmo disse, e ficava curioso sobre o processo de criação mas nunca fui atrás para saber, e agora essa sua postagem me explicou tudo ponto a ponto.
Estou vendo o vídeo que vc indicou e ficou impressionado com o Lexica e os prompts que ele fornece.
Vou seguir aqui e tentar subir aqui localmente. (Tenho um macbook de 2019 com Intel)

Fala Filipe, blza? Poderia me dizer se fez algo diferente do que foi falado no vídeo para chegar nesse resultado? Eu pergunto pois consegui rodar a UI no navegador, baixei o model e parece que foi tudo certo até aí. O problema foi quando pedi para criar uma imagem com um prompt que peguei lá no Lexica ele quase travou meu computador, mas mesmoa assim só conseguiu gerar uma imagem toda borrada. Tentei rodar uma segunda vez e ele conseguiu travar meu mac, e olha que tenho 32GB de Ram. Sim, a placa de vídeo não é uma das melhores mas tenho 4GB de vídeo(AMD Radeon Pro 5300M 4 GB).
Fiquei sem entender oq aconteceu, pois estava tudo igual no vídeo ali do Youtube e tbm não apareceu nenhum erro no terminal.

Parabéns pela iniciatica e pelo projeto. Eu estou querendo desenvolver um solução usando IA. E eu queria saber se existem alguma IA que eu possa usar para gerar imagem com base em uma outra imagem. Teria como me dá um norte sobre?

Autor

Tem sim.

A própria Stable Diffusion.

O vídeo que já tenho gravado (e esse vídeo do YouTube que postei acima) mostra isso tb.

Eu achei uma api paga para usar o Stable diffusion chamada: replicate. Mas eu estou pensando em montar um servidor proprio pra usar essa o Stable Diffusion já que o código é Open Source. Porém eu estou com dúvida se faço isso ou não 🤔

Cara eu estava pesquisando sobre o Stable diffusion, e parece que só da pra gerar imagens até 768x768. Será que dá pra gerar imagens com resoluções maiores?

Autor

Sim mas a maioria dos modelos foram treinados com 512x512.

Esse é um dos desafios.

Você pensa em alguma solução pra isso?

Autor

Sim, tem acho que duas opções:

Treinar com imagens maiores
Treinar algum modelo para escalar sem perder qualidade

eu tive uma ideia de extender a imagens com mais geração de imagens. Tipo, a IA gera uma imagens e depois gera outra imagens nas laterais, com o comando de completar a imagens, mas isso faria com que a imagem final demorasse, e tempo é ouro em um produto que varios usuários vão usar!

Mas nesse seu projeto você usa alguma api pra gerar as imagens ou você reda na sua maquina?

Autor

Ainda estou começando mas a ideia é rodar em máquinas próprias sim e treinar meu próprio modelo.

Como é feito os treinamento? teria como me mandar algum link explicando? Claro, se não for te atrapalhar! É que eu estou planejando um projeto que necessita de um tamanho maior da imagens.