cara isso é bem simples na vdd, vc pega o video, baixa o áudio, manda transcrever e fazer um resumo.
usando a api da openai vc tem todos os recursos de transcrição de audio e analise
o que vc precisa é só de um python ou node pra extrair o audio do video e depois disso só fazer 2 chamadas de api da openai