Executando verificação de segurança...
1

[ Pitch ] Plataforma Brasileira estilo GROQ para api de AI

Fala, galera! Tudo certo?

Quero compartilhar com vocês um projeto que estou desenvolvendo junto com um amigo. Identificamos na nossa empresa a necessidade de uma alternativa mais acessível para inferência de IA, já que os custos com o ChatGPT estavam ultrapassando R$25 mil por mês. Sabíamos que o GPT-4 era mais potente do que realmente precisávamos e buscamos uma solução mais viável para o nosso modelo de negócios.

Consideramos o GROQ, que tem uma velocidade absurda, mas não conseguimos acesso à assinatura Business. Sem muitas opções viáveis no mercado, decidimos construir nosso próprio servidor de inferência utilizando duas RTX 4090. No entanto, para lidar com nossa demanda de cerca de 40 mil requisições diárias, a performance não foi satisfatória.

Foram 20 dias intensos, trabalhando 18 horas por dia, até conseguirmos estruturar o (RaillsAI)[https://www.raillsai.com/playground] com modelos open-source. Todo o backend foi desenvolvido em Django (Python), enquanto o frontend ficou por conta do React.

Atualmente, rodamos um modelo Vision 11B da LLaMA, mas já estamos planejando a implementação de modelos maiores, como 90B e 405B, modelos da DeepSeek e qualquer um aberto a comunidade.

Conseguimos ter um custo de Input bem inferior ao mercado, o preco de output do 11b esta em 3,5USD pelo custo operacional mas estamos viabilizando e investindo para ser menor e ganharmos mais concorrencia.

Para pagamentos, utilizamos Stripe junto com dj-stripe, o que facilitou bastante a integração de assinaturas e transações. Já para a API, apostamos no Django REST Framework (DRF), que nos permitiu construir rapidamente as rotas necessárias.

Seguimos evoluindo e fortalecendo a infraestrutura. Hoje, conseguimos suportar mais de 1.500 requisições por segundo, com um tempo médio de resposta de 7 segundos para outputs de 500 tokens.

Estamos animados com os próximos passos e abertos a feedbacks! 🚀

Tecnologias:
Django,
DjangoRestFramework, # APis e Rotas
Celery, # Fluxo de metricas e Pagamentos
Redis, # Cache e Mensageria

Carregando publicação patrocinada...