Próximas Turmas

Nenhuma turma disponível no momento

Entre em contato para informar seu interesse

O que você vai aprender nesse curso

O curso tem como objetivo capacitar o aluno para desenvolver soluções Big Data que sejam capazes de ingerir, armazenar e processar grandes volumes de dados através das ferramentas de mercado mais utilizadas atualmente (Azure Data Factory, Azure Data Lake Storage, Databricks e Azure Functions).

Ao concluir o curso o aluno estará pronto para atuar como Engenheiro de Dados em um projeto de Big Data.

Pré-requisito:  Banco de Dados - Modelagem e SQL ou conhecimentos equivalentes

Conteúdo do curso

Introdução

  • O conceito de Big Data
  • Os principais Vs do Big Data
  • Conceitos de computação distribuída (Hadoop MapReduce vs Spark)
  • Data Lake, Data Warehouse, Data Lakehouse
  • Organização do DataLake em camadas
    (Transient, Raw, Trusted, Refined)
  • Tipos de dados: Estruturados, Semi-Estruturados e Não Estruturados
  • Tipos de arquivos: Orientados à linha, orientados à coluna
  • ETL vs. ELT
  • Overview da plataforma Microsoft Azure

Azure Data Lake Storage 

  • Criar um DataLake Storage Gen 2 na Azure
  • Escolher a redundância de armazenamento
  • Configurar o recovery de dados
  • Entender os componentes: Containers, Filas
  • Estruturar o DataLake em camadas
    • Transient,
    • Raw,
    • Trusted,
    • Refined 

Azure Data Factory

  • Criar um componente Data Factory na Azure
  • Entender os componentes da plataforma:
    • Integration Runtimes
    • Linked Services
    • Datasets
    • Triggers
    • Pipelines
    • DataFlow
  • Entender e utilizar os componentes de um pipeline:
    • Copy Data
    • Get Metadata
    • Validation
    • Parâmetros
    • Variáveis
    • Condicionais
  • Aplicar os diferentes tipos de Triggers:
    • Schedule
    • Storage Events
    • Tumbling Window
  • Criar pipelines de ingestão de dados on-premisses no datalake
  • Realizar o monitoramento de execução das pipelines
  • Configurar alertas de falhas de execução

Databricks

  • Overview da plataforma
  • Realizar a criação do cluster
  • Configurar o acesso do Databricks aos arquivos do Datalake Storage
  • Consultar e Ingerir dados em um Data Lake
  • Realizar a transformação de dados com PySpark e SQL
  • Realizar a criação de Delta Tables
  • Entender os recursos das tabelas Delta:
    • Upsert
    • Schema Validation
    • Schema Evolution
    • Time Travel
    • Restore
  • Managed Tables vs. External Tables
  • Realizar processamento em Batch e em Streaming
  • Aplicar a arquitetura medalhão para organização do Data Lakehouse
  • Conexão com ferramentas de B.I

Azure Functions + Logic Apps

  • Entender o que são esses recursos e suas utilidades
  • Criar aplicação com Logic Apps:
    • Monitoramento de Email para captura automática de Anexo
    • Ingestão no DataLake
  • Criar aplicação Python com Azure Function:
    • Tratamento de dados com Pandas
    • Leitura e Ingestão de arquivo no DataLake
  • Configurar os diferentes tipos de agendamentos:
    • Time Trigger
    • Event Trigger