Curso de Big Data - Engenheiro de Dados

Próximas Turmas

Nenhuma turma disponível no momento

O que você vai aprender nesse curso

O curso tem como objetivo capacitar o aluno para desenvolver soluções Big Data que sejam capazes de ingerir, armazenar e processar grandes volumes de dados através das ferramentas de mercado mais utilizadas atualmente (Azure Data Factory, Azure Data Lake Storage, Databricks e Azure Functions).

Ao concluir o curso o aluno estará pronto para atuar como Engenheiro de Dados em um projeto de Big Data.

Pré-requisito: Banco de Dados - Modelagem e SQL ou conhecimentos equivalentes

Conteúdo do curso

Introdução

O conceito de Big Data
Os principais Vs do Big Data
Conceitos de computação distribuída (Hadoop MapReduce vs Spark)
Data Lake, Data Warehouse, Data Lakehouse
Organização do DataLake em camadas
(Transient, Raw, Trusted, Refined)
Tipos de dados: Estruturados, Semi-Estruturados e Não Estruturados
Tipos de arquivos: Orientados à linha, orientados à coluna
ETL vs. ELT
Overview da plataforma Microsoft Azure

Azure Data Lake Storage

Criar um DataLake Storage Gen 2 na Azure
Escolher a redundância de armazenamento
Configurar o recovery de dados
Entender os componentes: Containers, Filas
Estruturar o DataLake em camadas

Transient,
Raw,
Trusted,
Refined

Azure Data Factory

Criar um componente Data Factory na Azure
Entender os componentes da plataforma:

Integration Runtimes
Linked Services
Datasets
Triggers
Pipelines
DataFlow

Entender e utilizar os componentes de um pipeline:

Copy Data
Get Metadata
Validation
Parâmetros
Variáveis
Condicionais

Aplicar os diferentes tipos de Triggers:
- Schedule
- Storage Events
- Tumbling Window

Criar pipelines de ingestão de dados on-premisses no datalake
Realizar o monitoramento de execução das pipelines
Configurar alertas de falhas de execução

Databricks

Overview da plataforma
Realizar a criação do cluster
Configurar o acesso do Databricks aos arquivos do Datalake Storage
Consultar e Ingerir dados em um Data Lake
Realizar a transformação de dados com PySpark e SQL
Realizar a criação de Delta Tables
Entender os recursos das tabelas Delta:

Upsert
Schema Validation
Schema Evolution
Time Travel
Restore

Managed Tables vs. External Tables

Realizar processamento em Batch e em Streaming
Aplicar a arquitetura medalhão para organização do Data Lakehouse
Conexão com ferramentas de B.I

Azure Functions + Logic Apps

Entender o que são esses recursos e suas utilidades
Criar aplicação com Logic Apps:

Monitoramento de Email para captura automática de Anexo
Ingestão no DataLake

Criar aplicação Python com Azure Function:

Tratamento de dados com Pandas
Leitura e Ingestão de arquivo no DataLake

Configurar os diferentes tipos de agendamentos:

Time Trigger
Event Trigger

Engenheiro de Dados - Big Data

Próximas Turmas

O que você vai aprender nesse curso

Conteúdo do curso