Executando verificação de segurança...
7

Machine Learning do início ao fim

Se você está buscando uma oportunidade de aprimorar suas habilidades em Machine Learning e ainda não encontrou a melhor opção, aí vai uma notícia que você não pode perder: o canal Téo Me Why está oferecendo um treinamento completo em Machine Learning em parceria com o Instituto Aaron Swartz, do básico ao avançado, 100% gratuito!

Durante o curso, você aprenderá a construir variáveis para solucionar um problema de negócio em ecommerce, utilizando a plataforma Databricks. Nossa stack será com Python e SQL, duas das linguagens mais utilizadas no mercado.

Além disso, o curso será ao vivo e acontecerá entre os dias 03/04 e 10/04, às 20hrs. Você terá a oportunidade de interagir com outros alunos e com o instrutor, Téo Calvo, que tem vasta experiência na área de Machine Learning e Data Science.

Não perca essa oportunidade única de se destacar no mercado de trabalho e aprimorar suas habilidades em Machine Learning. Inscreva-se agora mesmo no treinamento do Téo Me Why e comece a mudar o seu futuro! Link nos comentários para maiores informações.

PS: texto criado com a ajuda do chatGPT e ajustado pelo chat da Twitch

Confira abaixo mais informações sobre o treinamento

======================================================

olist-ml-models

Projeto de Machine Learning do início ao fim no contexto de um e-commerce.

Este projeto é resultado de uma parceria entre o canal Téo Me Why e o Instituto Aaron Swartz.

Se inscreva aqui para receber o certificado de partipação: Formulário Docs

+12 horas de conteúdo gratuito sobre Machine Learning

Nosso objetivo será, a priori, criar um modelo de Machine Learning para ajudar o negócio da empresa Olist. Dentre as possibilidades temos:

  1. Predição de Churn dos vendedores
  2. Predição de ativação dos vendedores
  3. Predição de atraso no pedido
  4. Clustering de vendedores

Índice

Como vamos nos organizar?

O projeto será 100% ao vivo na Twitch, canal Téo Me Why de forma gratuita. Todo o desenvolvimento será realizado no Databricks, onde as pessoas assinantes do canal terão acesso a este Datalake para realizar seus próprios experimentos.

Passaremos por todas etapas do ciclo analítico, desde ETL das fontes de dados, criação de feature store, criação da ABT (Analytical Base Table), treinamento dos algoritmos, implementação do algoritmo campeão para novas predições. Utilizaremos ainda o MLFlow para gestão de nossos modelos.

Cronograma

DiaData/HoraTemaLink
103/04/23 20hrs BRIntrodução à ML + Definição do problema🔗
204/04/23 20hrs BRBrainstorm de variáveis + Criação Feature Store Pt. 1🔗
305/04/23 20hrs BRCriação Feature Store Pt. 2🔗
406/04/23 20hrs BRCriação da ABT🔗
507/04/23 20hrs BRTreinando algoritmos com MLflow🔗
610/04/23 20hrs BREscolhendo melhor algoritmo + Deploy🔗

Ementa

Dia 1 - Introdução à ML + Definição do problema

No primeiro dia de curso, conheceremos o ciclo básico de desenvolvimento de um modelo (aplicação) de Machine Learning. Além disso, juntos, de forma colaborativa, definiremos qual será o problema de negócio que gostaríamos de resolver utilizando técnicas preditivas.

Dia 2 - Brainstorm de variáveis + Criação Feature Store Pt. 1

Com o problema bem definido, podemos discutir quais são as variáveis (características, atributos, etc) que ajudarão a prever o evento de interesse. isto é, qual conjunto de informações podemos criar para ajudar na solução de nosso problema. Ainda neste momento, as primeiras variáveis serão criadas em suas tabelas de Feature Stores.

Dia 3 - Criação Feature Store Pt. 2

Continuação da criação das variáveis relevantes para nosso estudo. É importante que ao final deste dia, todas as variáveis estejam devidamente construídas e disponíveis para consulta.

Dia 4 - Criação da ABT

Com todas as nossas variáveis criadas e disponíveis, temos condições de processar a nossa tabela definitiva para treinamento de uma algoritmo de Machine Learning. O nome desta tabela é ABT - *Analytical Base Table*, onde possui todas informações necessária para solução de nosso problema de negócios, i.e. features (variáveis, características, etc.) e target (variáveis resposta, alvo).

Dia 5 - Treinando algoritmos com MLflow

Chegou o momento de treinar nossos primeiros algoritmos de Machine Learning. Utilizaremos a biblioteca MLFlow para realizar a gestão do ciclo de vida de nossos modelos. Desta forma, conseguimos identificar a performance, métricas, parâmetros e variáveis de cada modelo, facilitando assim a tomada de decisão do modelo campeão.

Dia 6 - Escolhendo melhor algoritmo + Deploy

Ao definirmos o modelo campeão, podemos realizar novas predições e criar um novos script para fazer este processo de forma automática. Isto é, usar o nosso modelo para ajudar o negócio com novas possibilidades.

Pre requisitos

Utilizaremos bastante SQL e Python. O nível básico de conhecimento nessas linguagens deve ser suficiente para acompanhar o curso. Durante as lives faremos questão de explicar a lógica do desenvolvimento e algumas sintaxes mais avançadas.

Sobre o Instituto Aaron Swartz

Fazemos parte de um esforço global em que nossa estratégia de impacto social está diretamente alinhada com os Objetivos do Desenvolvimento Sustentável da ONU, contribuindo para o desenvolvimento sustentável reduzindo o gap gênero em TICs, fornecendo acesso à formação e tecnologias à pessoas de baixa renda e potencializando o trabalho coletivo em comunidades periféricas promovendo a cidadania ativa.

Dentre nossos objetivos, temos:

  • Promover oportunidades de aprendizado sobre programação e o acesso à tecnologia e à informação;
  • Elaborar, criar, implantar, executar projetos e programas voltados para educação, cultura do conhecimento e qualificação profissional;
  • Fomentar o desenvolvimento de uma comunidade de interessados em inovação, ciência, cultura, tecnologia, criatividade, artes e disseminação do conhecimento;
  • Promover e dar apoio ao uso de tecnologias e padrões que permitam seu livre uso, estudo, adaptação e compartilhamento, respeitando a autonomia individual e coletiva e incentivando a colaboração;
  • Promover os ideais da ética hacker perante a comunidade e o poder público, esclarecendo desentendimentos acerca do termo;
  • Promover o incentivo ao uso de tecnologia e inovação para a igualdade de gênero – ou seja, aumentar o uso de tecnologias de base, em particular as tecnologias de informação e comunicação, para promover o empoderamento das mulheres e segurança;

Conheça mais em: institutoasw.org

Sobre o instrutor

Téo é bacharel em Estatística pela FCT-UNESP e tem pós graduação em Big Data & Data Science pela UFPR. Hoje, é Sr. Head of Data na Gamers Club, tendo passado por diferentes empresas e indústrias sempre trabalhando com dados e Data Science desde 2014.

No cenário da educação, é criador do canal Téo Me Why na Twitch para divulgação de conteúdo de qualidade na área de dados e tecnologia de forma gratuita. Além disso, é professor na ASN.Rocks ministrando aulas de SQL, Python e Machine Learning (classificadores e regressores). Também é parceiro da LinuxTips na criação de cursos. Recentemente tornou-se membro do Instituto Aaron Swartz como instrutor de tecnologia, onde firmou parceria junto ao seu canal, visando maior impacto social de seu conteúdo.

Nos apoie: Apoia.se/teomewhy

Carregando publicação patrocinada...
2

Achei super insteressante o projeto, fico triste pois não vou conseguir assistir no momento, devido ao horário da faculdade.
Eu estudo Farmácia bacharelado, e estou apaixonado pela programação, uso python como minha linguagem principal, e sempre tive curiosidade de aprender sobre ML.
Espero que de alguma forma eu consiga acompanhar esse projeto.

1
1
0
1
1

Todo o desenvolvimento será realizado no Databricks, onde as pessoas assinantes do canal terão acesso a este Datalake para realizar seus próprios experimentos.

É desse databricks que você está falando? O que ele oferece em comparação a distribuir os dados num arquivo .json, ou num notebook do kaggle, por exemplo?

Quem não for assinante do canal vai conseguir acompanhar sem acesso a essa datalake?

Pergunto pois vejo muitos termos (datalake, feature store, analytical base table) que eu não tenho familiaridade, mesmo já tendo trabalho com algumas aplicações de ML.

Parabéns pela iniciativa e parceria com o instituto asw.

1

Salve, mano!

É desse databricks que você está falando? O que ele oferece em comparação a distribuir os dados num arquivo .json, ou num notebook do kaggle, por exemplo?

É esse Databricks sim.
Ele acaba sendo uma plataforma para construção de datalake. Fica beeeem legal trabalhar com ele, ainda mais de forma colaborativa. Vou compartilhar alguns materiais com você, como por exemplo, o armazenamento dos dados da TabNews no datalake da nossa comunidade: https://www.tabnews.com.br/teomewhy/tabnewslake-um-datalake-para-nossas-news

Além de usar dados do Dota2 em outro exemplo: https://github.com/TeoMeWhy/game-lake-house

Ambas iniciativas, acabam usando arquivos Json na primeira ingestão, mas depois fazemos um trabalho de tratamento de dados para ficar beeeem mais simples de se trabalhar com esses dados.

Quem não for assinante do canal vai conseguir acompanhar sem acesso a essa datalake?

Sim! Os vídeos ficaram gravados e a pessoa pode replicar os fundamentos, códigos e métodos em outro ambiente além do Databricks. Mas vale muito a pena ser assinante, é R$7,90/mês, além de não receber ADs durante a transmissão, você ganha acesso à todos os VODs da twitch e ao datalake. Só vantagem.

Conheçao do nosso trampo: https://github.com/TeoMeWhy