Como começar em Engenharia de Dados
Este projeto tem o objetivo de organizar conteúdos sobre engenharia de dados, principalmente em português, para facilitar o aprendizado de quem está entrando na área.
Dividimos os recursos em 4 níveis
Roadmap
Nível 1 : Fundamentos «« Comece aqui!
graph LR
A[Fundamentos]
B[Programação]
B1[Python]
B2[SQL]
C[Banco de Dados Básico]
C1[Bancos SQL]
C1_1[Mysql]
C1_2[Postgres]
C1_3[SQL Server]
C2[Bancos NoSQL]
C2_1[MongoDB]
C2_2[ElasticSearch]
C2_3[Redis]
D[Linux]
D1[Terminal]
D2[Shell Scripting]
D3[SSH]
D4[Services]
D5[Resource/ Process Management]
A-->B
A-->C
A-->D
B-->B1
B-->B2
C-->C1
C-->C2
D-->D1
D-->D2
D-->D3
D-->D4
D-->D5
C1-->C1_1
C1-->C1_2
C1-->C1_3
C2-->C2_1
C2-->C2_2
C2-->C2_3
click B "#programa%C3%A7%C3%A3o" "Programação"
click B1 "#python" "Python"
click B2 "#sql" "SQL"
click C "#banco-de-dados-básico"
Programação
-
Python
Site Título Nível Python Python Básico devAnalytics/Youtube Introdução à Linguagem Python Básico Pandas Pandas Básico -
SQL
Site Título Nível TeoMeWhy Treinamento SQL Básico ao avançado sql-for-data-analysis Treinamento SQL Básico
Banco de dados (Básico)
Bancos SQL
-
Mysql
-
Postgres
-
SQL Server
Bancos NoSQL
-
MongoDB
-
ElasticSearch
-
Redis
Linux
-
Terminal
-
Shell Scripting
-
SSH
-
Services
-
Resource/ Process Management
Nível 2 : Indo para as nuvens!
graph LR
P[Plataforma]
A[Cloud]
A1[AWS]
A1_1[Amazon S3]
A1_2[AWS VPC]
A1_3[AWS EC2]
A2[Azure]
A2_1[Azure Storage]
A2_2[Azure Virtual Machines]
A2_3[Azure Virtual Networks]
A3[GCP]
A3_1[Google Cloud Storage]
A3_2[Google Compute Engine]
A3_3[Google VPC]
B[Open Source]
B1[Docker]
B2[Apache Mesos]
B3[OpenStack]
P-->A
P-->B
A-->A1
A-->A2
A-->A3
A1-->A1_1
A1-->A1_2
A1-->A1_3
A2-->A2_1
A2-->A2_2
A2-->A2_3
A3-->A3_1
A3-->A3_2
A3-->A3_3
B-->B1
B-->B2
B-->B3
click B "#open-source"
click A1 "#aws"
Plataforma
Cloud
AWS
-
Amazon S3
-
AWS VPC
-
AWS EC2
Azure
-
Azure Storage
-
Azure Virtual Machines
-
Azure Virtual Networks
GCP
-
Google Cloud Storage
-
Google Compute Engine
-
Google VPC
Open Source
-
Docker
-
Apache Mesos
-
OpenStack
Nível 3 : Escolha seu caminho
Data Pipelines Engineer
graph LR
P[Data Pipelines Engineer]
A[Arquitetura Serveless]
A1[AWS Lambda]
A1[Google Functions]
A1[Azure Functions]
B[Job Orquestration]
B1[AWS Step Function]
B2[Apache Airflow]
B3[Luigi]
B3[Prefect]
B3[Dagster]
C[Processing Frameworks]
C1[Apache Spark]
C2[Apache Arrow]
C3[dbt]
P-->A
P-->B
P-->C
A-->A1
A-->A2
A-->A3
B-->B1
B-->B2
B-->B3
C-->C1
C-->C2
C-->C3
click B "#open-source"
click A1 "#aws"
Arquitetura Serveless
-
AWS Lambda
-
Google Functions
-
Azure Functions
Job Orquestration
-
AWS Step Function
-
Apache Airflow
- Supletivo Airflow
- https://www.udemy.com/course/the-ultimate-hands-on-course-to-master-apache-airflow
- https://www.udemy.com/course/the-complete-hands-on-course-to-master-apache-airflow
- https://www.udemy.com/course/apache-airflow-on-aws-eks-the-hands-on-guide
-
Luigi
-
Prefect
-
Dagster
Processing Frameworks
-
Apache Spark
-
Apache Arrow
-
dbt
Data Infraestructure Engineer
graph LR
P[Data Infraestructure Engineer]
A[Kubernets]
A1[Helm]
B[Clustering]
B1[Apache Spark - infra]
C[Infra as Code]
C1[Terraform]
C2[Ansible]
C3[AWS CDK]
C4[Pulumi]
D[Auto-Scaling]
P-->A
P-->B
P-->C
P-->D
A-->A1
B-->B1
C-->C1
C-->C2
C-->C3
C-->C4
Kubernets
- Helm
Clustering
- Apache Spark - infra
Infra as Code
- Terraform
- Ansible
- AWS CDK
- Pulumi
Auto-Scaling
Nível 4: Torne-se um Jedi
Aprofundamento Geral
Recursos Computacionais
Linguagens de Programação
Data Warehousing
* Arquiteturas de Schema de DWs;
Monitoramento
Segurança
Data Lakes
* Arquiteturas de DL;
* Data Lakehouses;
Arcabouço Teórico
Algebra linear
Cálculo numérico
Recuperação de Informação
Computação distribuída
Data Governance
Controle de Acesso SGBDs
Catálogo de dados
* Amundsen;
* Datahub;
* OpenMetadata;
* Apache Atlas
Testes de dados;
* Great Expectations;
Auditoria
LGPD/GPDR
Data Streaming
Apache Kafka
AWS Kinesis
CDC
Apache Nifi
Apache Beam
https://www.udemy.com/course/apache-beam-python
Machine Learning Engineering
Machine Learning
Aprendizado Supervisionado
Aprendizado Não-Supervisionado
Estatística e Probabilidade
Teste A/B
===========================
Trilhas Pagas:
- Engenheiro de dados do Datacamp;
- Curso de engenheiro de dados do Google (para Certificação);
- Engenharia de dados da Udacity; https://www.udacity.com/course/data-engineer-nanodegree–nd027
Datasets para estudar e criar projetos:
* Google Bigquery public datasets - https://cloud.google.com/bigquery/public-data;
* Kaggle Datasets - https://www.kaggle.com/;
* Portais do Governo;
* APIs;
* Tools:
* Postman;
* Imnsonia;
* CEP, CNPJs, DDD, FIPE, etc - https://brasilapi.com.br/docs