Executando verificação de segurança...
4

Obrigado por me citar.

Gostaria de sugerir uma outras mudanças simples na tela de demonstração:
1 - Adicionar o menu para retornar à tela inicial.
2 - No momento pelo que entendi, a demonstração realiza o chamado da api. Mas do processo de chamar até receber demora um tempo considerável, e como usuário eu só quero saber o resultado final para saber se está dentro do que preciso para meu projeto, depois vou verificando as outras questões.

Vejo dois caminhos para esse caso, um seria que a demonstração fosse realizada apenas do modelo que selecionar.

A segunda e mais interessante, na minha opnião, seria deixar preparado 3 a 5 resultados prontos e quando o usuário selecionar o que quer testar, exibir um dos 3 ou 5 resultados randomicamente.

Também tenho uma dúvida sobre o quanto podemos personalizar a resposta que recebemos da api, por exemplo a de texto para fala, há como definir o tom, sotaque e gênero do áudio gerado?

Uma última sugestão, no caso de modelo a ser adicionado, seria um modelo de interpretação de imagem, capaz de compreender características e objetos da imagem.

Fique a vontade para discordar de mim, minhas falas são baseadas apenas na minha opinião.

Carregando publicação patrocinada...
1

Ótimas opniões, sem duvida vamos considerar!

Sobre o ponto da demonstração, tenho a intenção de criar exemplos mais independentes e flexíveis mas acho que existe um certo charme em ser uma chamada real.

Sobre validar o resultado final, é um tema relativamente amplo, penso que podemos suprir esse gap criando conteúdos com casos de uso aplicados, mas até por não ser especialista em machine learning, corro o risco de me equivocar ou até limitar a capacidade dos modelos.

De qualquer forma, trazer aleatoriedade, e a possibilidade de interação nas demonstrações me parece ser algo que vai gerar muito valor, obrigado pelo conselho!

Também tenho uma dúvida sobre o quanto podemos personalizar a resposta que recebemos da api, por exemplo a de texto para fala, há como definir o tom, sotaque e gênero do áudio gerado?

Entrando no detalhe do text-to-speech, é curioso o tanto de modelos novos de todas as categorias de tarefas surgiram após o lançamento, o OuteTTS se tornou compartivel com o nosso sistema a alguns dias e apresenta uma qualidade incrível, porém não tem suporte a português.

O que usamos agora é mais limidado nesse sentido, mas ele pode evoluir e outros podem surgir rapidamente.

modelo de interpretação de imagem

Perfeito, 2 novos muito hypados foram lançados, paligemma2 da Google e o SmolVLM da HuggingFace e vai ser um prazer integra-los na plataforma.

Obrigado de novo pela contribuição! seria um prazer ouvir mais ideias no nosso discord ;)