Ótimas opniões, sem duvida vamos considerar!
Sobre o ponto da demonstração, tenho a intenção de criar exemplos mais independentes e flexíveis mas acho que existe um certo charme em ser uma chamada real.
Sobre validar o resultado final, é um tema relativamente amplo, penso que podemos suprir esse gap criando conteúdos com casos de uso aplicados, mas até por não ser especialista em machine learning, corro o risco de me equivocar ou até limitar a capacidade dos modelos.
De qualquer forma, trazer aleatoriedade, e a possibilidade de interação nas demonstrações me parece ser algo que vai gerar muito valor, obrigado pelo conselho!
Também tenho uma dúvida sobre o quanto podemos personalizar a resposta que recebemos da api, por exemplo a de texto para fala, há como definir o tom, sotaque e gênero do áudio gerado?
Entrando no detalhe do text-to-speech, é curioso o tanto de modelos novos de todas as categorias de tarefas surgiram após o lançamento, o OuteTTS se tornou compartivel com o nosso sistema a alguns dias e apresenta uma qualidade incrível, porém não tem suporte a português.
O que usamos agora é mais limidado nesse sentido, mas ele pode evoluir e outros podem surgir rapidamente.
modelo de interpretação de imagem
Perfeito, 2 novos muito hypados foram lançados, paligemma2 da Google e o SmolVLM da HuggingFace e vai ser um prazer integra-los na plataforma.
Obrigado de novo pela contribuição! seria um prazer ouvir mais ideias no nosso discord ;)