Eu compilei 1500 sites de empresas estrangeiras para descobrir o que você precisa para ser um cientista de dados em 2023
Um cientista de dados é um profissional que utiliza suas habilidades em matemática, estatística e ciência da computação para extrair insights e conhecimentos a partir de dados. Eles usam uma variedade de ferramentas e técnicas para coletar, analisar e interpretar grandes e complexos conjuntos de dados, e usam seus resultados para informar decisões empresariais e resolver problemas do mundo real. Os cientistas de dados costumam ser responsáveis por desenvolver modelos preditivos, identificar tendências e padrões nos dados e criar visualizações para comunicar seus resultados a uma variedade de públicos. Eles podem trabalhar em uma variedade de campos, incluindo finanças, saúde, marketing e tecnologia.
Eu compilei mais de 1500 páginas de empresas para descobrir quais são os conhecimentos mais requisitados em vagas de Data Scientist, segue a lista.
Ferramentas
É esperado que um cientista de dados saiba conceitos de programação como desenvolvimento Agile, Big data, Data pipelines, Data warehousing, ETL, arquitetura de dados e manipulação de dados estruturados e não estruturados. Assim como diversas ferramentas, como:
Importante! Lista em ordem alfabética.
Airflow
AWS
Azure
Big query
D3
Dax
GCP
Hadoop
Hive
Java
Jupyter
Keras
Kusto
Looker
Matplotlib
Numpy
Pandas
Power BI
Python
Pytorch
R
Redshift
SQL
Scala
Scikit-Learn
Snowflake
Spark
Tableau
TensorFlow
No geral Python e frameworks de Machine Learning como Pytorch, TensorFlow e Scikit-learn são os mais comuns, juntamente com serviços cloud da AWS, Azure e GCP e bancos de dados como Redshift e Big query.
Conceitos Matemáticos
Quando voltamos o foco para a base matemática, temos diversos conceitos que são requisitados.
Importante! Lista em ordem alfabética.
Algebraic geometry
Bias and variance
Business analysis
Causal inference
Classification
Clustering
Combinatorics
Data analysis
Data cleaning
Data mining
Data normalization
Data profilling
Data transformation
Data visualization
Ensemble of multiple models
Entity recognition
Experimental design
Exploratory data analysis
Generative learning
Hypothesis testing
K-Nearest neighbors
Linear algebra
Linear model tree
Logistic regression
Map reduce
Natural language processing
Predictive models
Random forest/Decision tree
Regression
Statistics
Support Vector Machine
Time-series modeling
Topic modeling
Aqui temos uma gama bem grande de assuntos, indo desde items mais genéricos como "Hypothesis testing", ou teste de hipotesis, algo bastante usado para validar hipotesis em pesquisas e suposições, até items mais específicos como "Support Vector Machines" ou SVM, um algoritmo muito usado tanto em aprendizado supervisionado (supervised learning) como em não supervisionado (unsupervised learning).
Soft-skills
Outro ítem muito importante são as chamadas "soft-skills", ou competências interpessoais. Algumas das mais requisitadas são:
Importante! Lista em ordem alfabética.
Analytical approach
Ask questions
Clear communication
Constant review of results
Creative thinking
Deal with ambiguity
Define success metrics
Deliver results
Dive deep
Draw insights
Drive researching
Estimation
Identify most impactful oportunities
Ownership
Partnering with other teams
Problem solver
Self-discipline
Solve real world problems
Storytelling
Think big
Aqui temos diversos itens importantes como abordagem analítica de problemas ("Analytical approach"), ótima comunicação ("Clear communication"), lidar com ambiguidade em problemas complexos ("Deal with ambiguity"), entregar resultados ("Deliver results") e storytelling, que também acaba caindo na parte de comunicação.
Educação
No geral é esperado que você tenha entre 3 e 5 anos de experiência como cientista de dados e é esperado que você tenha bacharel em uma dessas áreas:
- Ciência da computação
- Economia
- Matemática
- Ciência de dados
Para vagas mais sênior existem cargos sênior pedindo 8, 10 e até 24 anos de experiência, que também exigem mestrado e/ou doutorado em uma das áreas acima.
Conclusão
Podemos ver que existem diversos requisitos para se tornar um cientista de dados, muitos fortemente relacionados a matemática. Eu mesmo que estou migrando para essa área não conheço alguns dos conceitos que listei aqui, porém agora posso focar meus estudos nesses tópicos para aumentar minhas chances de conseguir uma vaga.
O que você achou? Comente.