[Open Source] Vamos desenvolver o ChatGPT brasileiro. Ou melhor, um dataset para ele.
Introdução
Há algum tempo estou querendo ajudar/criar projetos de código aberto brasileiros, mas não sabia em que. Até que agora a pouco pensando sobre modelos de processamento de linguagem natural, percebi que é extremamente escasso e até inexistente datasets. Então pensei "Por que não desenvolver uma plataforma onde cada um possa ajudar um pouquinho?".
Ideia
A ideia é uma plataforma extremamente clean onde tenha dois inputs: humano e IA.
O usuário clica para enviar e a plataforma adiciona automaticamente no repositorio no HuggingFace, GitHub e Kaggle, etc.
Adicionais
Pode se ter uma área de agradecimento a quem ajudou.
Nomes
Pensei em dataseta. Mas não sou bom com nomes, como dar pra perceber
Tecnologias
Pensei em usar Django + Next.js e hospedar direto na Vercel.
Finalidade
Com um dataset em estilo conversacional, a capacidade de se fazer um modelo em português para chats é muito mais fácil, assim ajudando nossa comunidade nacional a desenvolver modelos melhores.
Agora é com vocês, me digam o que acham, sugestões, nomes, etc.