Próximas Turmas
Nenhuma turma disponível no momento
Entre em contato para informar seu interesseO que você vai aprender nesse curso
O curso tem como objetivo capacitar o aluno para desenvolver soluções Big Data que sejam capazes de ingerir, armazenar e processar grandes volumes de dados através das ferramentas de mercado mais utilizadas atualmente (Azure Data Factory, Azure Data Lake Storage, Databricks e Azure Functions).
Ao concluir o curso o aluno estará pronto para atuar como Engenheiro de Dados em um projeto de Big Data.
Pré-requisito: Banco de Dados - Modelagem e SQL ou conhecimentos equivalentes
Conteúdo do curso
Introdução
- O conceito de Big Data
- Os principais Vs do Big Data
- Conceitos de computação distribuída (Hadoop MapReduce vs Spark)
- Data Lake, Data Warehouse, Data Lakehouse
- Organização do DataLake em camadas
(Transient, Raw, Trusted, Refined) - Tipos de dados: Estruturados, Semi-Estruturados e Não Estruturados
- Tipos de arquivos: Orientados à linha, orientados à coluna
- ETL vs. ELT
- Overview da plataforma Microsoft Azure
Azure Data Lake Storage
- Criar um DataLake Storage Gen 2 na Azure
- Escolher a redundância de armazenamento
- Configurar o recovery de dados
- Entender os componentes: Containers, Filas
- Estruturar o DataLake em camadas
- Transient,
- Raw,
- Trusted,
- Refined
Azure Data Factory
- Criar um componente Data Factory na Azure
- Entender os componentes da plataforma:
- Integration Runtimes
- Linked Services
- Datasets
- Triggers
- Pipelines
- DataFlow
- Entender e utilizar os componentes de um pipeline:
- Copy Data
- Get Metadata
- Validation
- Parâmetros
- Variáveis
- Condicionais
- Aplicar os diferentes tipos de Triggers:
- Schedule
- Storage Events
- Tumbling Window
- Criar pipelines de ingestão de dados on-premisses no datalake
- Realizar o monitoramento de execução das pipelines
- Configurar alertas de falhas de execução
Databricks
- Overview da plataforma
- Realizar a criação do cluster
- Configurar o acesso do Databricks aos arquivos do Datalake Storage
- Consultar e Ingerir dados em um Data Lake
- Realizar a transformação de dados com PySpark e SQL
- Realizar a criação de Delta Tables
- Entender os recursos das tabelas Delta:
- Upsert
- Schema Validation
- Schema Evolution
- Time Travel
- Restore
- Managed Tables vs. External Tables
- Realizar processamento em Batch e em Streaming
- Aplicar a arquitetura medalhão para organização do Data Lakehouse
- Conexão com ferramentas de B.I
Azure Functions + Logic Apps
- Entender o que são esses recursos e suas utilidades
- Criar aplicação com Logic Apps:
- Monitoramento de Email para captura automática de Anexo
- Ingestão no DataLake
- Criar aplicação Python com Azure Function:
- Tratamento de dados com Pandas
- Leitura e Ingestão de arquivo no DataLake
- Configurar os diferentes tipos de agendamentos:
- Time Trigger
- Event Trigger