Executando verificação de segurança...
1

Como eu transformei uma amostra de Audio em um Artigo completo

Neste post pretendo explicar o processo de construção deste meu outro post Desmistificando Inteligência Artificial: O Ponto de Vista de um Iniciante.

Durante a "Imersão AI" da Alura, tive a ideia de gravar o que aprendi até então sobre o mundo da Inteligência Artificial e, usando ferramentas de AI, criar Artigos, Imagens, Apresentação de slides e um Site.

Todo conteúdo usado durante a construção estará disponível neste link, como referência.

Transcrição dos Audios

Para a parte da gravação não teve muito mistério, apenas usei o Whatsapp para gravar diversos audios falando o que vinha em mente. Em seguida, comecei o processo de transcrição usando a API do Whisper da OpenAI. Felizmente é um modelo barato e meus créditos iniciais deram conta. Além disso o resultado foi extremamente agradável e precisei apenas de uma tentativa para cada audio.

A capacidade do Whisper conseguir identificar termos em inglês no meio de um audio em português já é extremamente impressionante, mas algo que me surpreendeu foi a identificação de siglas - em inglês - no plural, nesse caso, "LLMs". Loucura apenas.

Criação do Artigo

Com o texto transcrito completamente, comecei o processo de estruturação dele em um formato mais técnico, corrigindo erros e sintetizando os parágrafos. Para isso usei o ChatGTP (dispensa apresentações).
Com as dicas de engenharia de prompt ensinados durante as primeiras aulas da Imersão AI da Alura, formular a requisição não foi dificil, no entanto existia a limitação de tokens. O texto bruto tinha certa de 6 mil tokens, sabendo que o ChatGPT teria que me retornar um artigo com cerca de 60% do tamanho bruto... Muitos tokens.

Por isso eu estruturei o prompt instruindo o ChatpGPT a interpretar o texto em segmentos, dessa forma mantendo um contexto suficiente sobre parágrafos relacionados sem estourar o limite de tokens.
Mesmo assim, quando chegou a hora de mandar o terceiro segmento o conversa já estava com um tamanho muito grande e tive que continuar em outra.

Apesar disso, o resultado ainda foi muito coerente e agradável, mantendo a núcleo do assunto abordado nos audios.

Geração da Imagem de capa

Para o prompt eu pedi que o ChatGPT me ajudasse a gerar, dando o contexto do artigo previamente criado, sem dificuldades nesse passo.
Agora na parte da geração da imagem não foi tão fácil. Minha primeira tentativa foi o MidJourney, infelizmente ele estava constantemente sobrecarregado e sem disponibilidade gratuita.
Por isso, tentei outras duas fontes:

Nenhum dos dois gerou algum resultado incrível, mas o do StableDiffusion foi aceitável.
A imagem pode ser vista nos arquivos de referência ou no post final no Medium.

Geração da Apresentação

Eu usei o Gamma (com um prompt gerado pelo ChatGPT) para criar uma apresentação sobre os principais pontos do artigo. Fora alguma correções e reduções de texto, com apenas uma tentativa já obtive um resultado agradável.

Geração do Site

Para a geração do site eu escolhi o Framer. Novamente a partir de um prompt gerado pelo ChatGTP, mas nesse caso eu tive que adicionar mais detalhes e formatar o prompt para forçar o entendimento de algumas regras como: usar pouco texto, adicionar imagens e escrever o conteúdo em português. Depois de algumas tentativas e ajustes de cores e textos, obtive um resultado bastante simplista, como desejado.

Conclusão

Interessantemente, mesmo com todo esse auxílio de ferramentas, foi trabalhoso e aprendi durante o processo. Vejo isso de forma positiva e acredito que reforça a finalidade de auxílio que a Inteligência Artificial possui, ao invés da finalidade substitutiva.

Links para todos conteúdos gerados:

Carregando publicação patrocinada...
1
1

Cheguei a mandar audios de até 5 minutos e ele conseguiu transcrever sem muitos problemas, retornando em cerca de 20 segundos.
Quando convertidos para .mp3 os audios ficaram com alguns MBs de tamanho (o que me pareceu grande), mas a api do Whisper aceita audios de até 25MB se não me engano, então deve aceitar audios até 3x maiores do que mandei, pelo menos.