Executando verificação de segurança...
4

Eu compilei 1500 sites de empresas estrangeiras para descobrir o que você precisa para ser um cientista de dados em 2023

Um cientista de dados é um profissional que utiliza suas habilidades em matemática, estatística e ciência da computação para extrair insights e conhecimentos a partir de dados. Eles usam uma variedade de ferramentas e técnicas para coletar, analisar e interpretar grandes e complexos conjuntos de dados, e usam seus resultados para informar decisões empresariais e resolver problemas do mundo real. Os cientistas de dados costumam ser responsáveis por desenvolver modelos preditivos, identificar tendências e padrões nos dados e criar visualizações para comunicar seus resultados a uma variedade de públicos. Eles podem trabalhar em uma variedade de campos, incluindo finanças, saúde, marketing e tecnologia.

Eu compilei mais de 1500 páginas de empresas para descobrir quais são os conhecimentos mais requisitados em vagas de Data Scientist, segue a lista.

Ferramentas

É esperado que um cientista de dados saiba conceitos de programação como desenvolvimento Agile, Big data, Data pipelines, Data warehousing, ETL, arquitetura de dados e manipulação de dados estruturados e não estruturados. Assim como diversas ferramentas, como:

Importante! Lista em ordem alfabética.

Airflow
AWS
Azure
Big query
D3
Dax
GCP
Hadoop
Hive
Java
Jupyter
Keras
Kusto
Looker
Matplotlib
Numpy
Pandas
Power BI
Python
Pytorch
R
Redshift
SQL
Scala
Scikit-Learn
Snowflake
Spark
Tableau
TensorFlow

No geral Python e frameworks de Machine Learning como Pytorch, TensorFlow e Scikit-learn são os mais comuns, juntamente com serviços cloud da AWS, Azure e GCP e bancos de dados como Redshift e Big query.

Conceitos Matemáticos

Quando voltamos o foco para a base matemática, temos diversos conceitos que são requisitados.

Importante! Lista em ordem alfabética.

Algebraic geometry
Bias and variance
Business analysis
Causal inference
Classification
Clustering
Combinatorics
Data analysis
Data cleaning
Data mining
Data normalization
Data profilling
Data transformation
Data visualization
Ensemble of multiple models
Entity recognition
Experimental design
Exploratory data analysis
Generative learning
Hypothesis testing
K-Nearest neighbors
Linear algebra
Linear model tree
Logistic regression
Map reduce
Natural language processing
Predictive models
Random forest/Decision tree
Regression
Statistics
Support Vector Machine
Time-series modeling
Topic modeling

Aqui temos uma gama bem grande de assuntos, indo desde items mais genéricos como "Hypothesis testing", ou teste de hipotesis, algo bastante usado para validar hipotesis em pesquisas e suposições, até items mais específicos como "Support Vector Machines" ou SVM, um algoritmo muito usado tanto em aprendizado supervisionado (supervised learning) como em não supervisionado (unsupervised learning).

Soft-skills

Outro ítem muito importante são as chamadas "soft-skills", ou competências interpessoais. Algumas das mais requisitadas são:

Importante! Lista em ordem alfabética.

Analytical approach
Ask questions
Clear communication
Constant review of results
Creative thinking
Deal with ambiguity
Define success metrics
Deliver results
Dive deep
Draw insights
Drive researching
Estimation
Identify most impactful oportunities
Ownership
Partnering with other teams
Problem solver
Self-discipline
Solve real world problems
Storytelling
Think big

Aqui temos diversos itens importantes como abordagem analítica de problemas ("Analytical approach"), ótima comunicação ("Clear communication"), lidar com ambiguidade em problemas complexos ("Deal with ambiguity"), entregar resultados ("Deliver results") e storytelling, que também acaba caindo na parte de comunicação.

Educação

No geral é esperado que você tenha entre 3 e 5 anos de experiência como cientista de dados e é esperado que você tenha bacharel em uma dessas áreas:

  1. Ciência da computação
  2. Economia
  3. Matemática
  4. Ciência de dados

Para vagas mais sênior existem cargos sênior pedindo 8, 10 e até 24 anos de experiência, que também exigem mestrado e/ou doutorado em uma das áreas acima.

Conclusão

Podemos ver que existem diversos requisitos para se tornar um cientista de dados, muitos fortemente relacionados a matemática. Eu mesmo que estou migrando para essa área não conheço alguns dos conceitos que listei aqui, porém agora posso focar meus estudos nesses tópicos para aumentar minhas chances de conseguir uma vaga.

O que você achou? Comente.

Carregando publicação patrocinada...
2

Bom dia jaswdr,

Que legal esse estudo, como você compilou estas páginas?

Seria legal se trouxesse as ferramentas por popularidade, porque algumas das ferramentas como o airflow são voltadas mais para Engenharia de Dados, então pode ser uma vaga com um escopo mais híbrido.

Parte de conceitos matemáticos, realmente todos que estão ali são super importantes, mas nem todos são obrigatórios como Natural language processing que são trabalhos muito específicos que talvez um Cientista nunca pegue.

O mesmo ocorre com Ensemble of multiple models, que dificuldade em interpretabilidade do modelo (exceto quando usa o shap).

TensorFlow e Pytorch mais usados para Deep Learning, muito raro comparado com os outros algoritmos.

Parabéns pelo trabalho, bem completo mesmo.

1

Olá GTEX,
de fato existem items que são especificas de determinadas indústrias ou aplicações, minha intenção é dar uma visão geral do que esta sendo pedido na maioria das vagas. Referente ao rank de ferramentas por popularidade, eu posso trazer sim. Para extrair os dados eu usei um script que coleta o conteúdo das páginas usando simples requests + BeautifulSoup em Python, extrai todas as "listas" presentes na página e usei o NLTK para remover "sujeira", e por fim fiz uma curadoria manual dos dados, verificando item a item.

1
1