logo formation cellenza training

Intermédiaire

Data Engineering on Microsoft Azure (DP-203)

azure #data

Présentation de la formation : Data Engineering on Microsoft Azure DP-203

Les ingénieurs de données sur Microsoft Azure intègrent, transforment et consolident les données provenant de divers systèmes de données structurées et non structurées dans des structures qui conviennent à l'élaboration de solutions analytiques.

Objectifs pédagogiques de la formation

  • A l’issue de cette formation, les participants seront en capacité de :
  • Concevoir une structure de stockage de données
  • Concevoir une stratégie de partition
  • Concevoir et mettre en œuvre des couches de service
  • Mettre en œuvre des structures de stockage de données physique et de données logique
  • Intégrer et transformer des données
  • Concevoir et développer des solutions de traitement par lot et par flux
  • Gérer les lots et les pipelines
  • Concevoir la sécurité des politiques et des normes de données
  • Mettre en œuvre la sécurité des données
  • Surveiller le stockage et le traitement des données
  • Optimiser et dépanner le stockage et le traitement des données

Programme de la formation :

Concevoir une structure de stockage de données :

  • Concevoir une solution Azure Data Lake
  • Recommander des types de fichier pour le stockage et les requêtes analytiques
  • Designer pour une interrogation efficace et pour l’élagage des données
  • Concevoir une structure de dossiers qui représente les niveaux de transformation des données
  • Concevoir une stratégie de distribution et une solution d’archivage des données

Concevoir une stratégie de partition :

  • Concevoir une stratégie de partition pour les fichiers
  • Concevoir une stratégie de partition pour les charges de travail analytiques
  • Concevoir une stratégie de partition pour l’efficacité/ la performance
  • Concevoir une stratégie de partition pour Azure Synapse Analytics
  • Identifier quand le partitionnement est nécessaire dans Azure Data Lake Storage Gen2

Concevoir et mettre en oeuvre la zone de service :

  • Concevoir, fournir et mettre en œuvre des dimensions qui changent lentement
  • Concevoir des schémas en etoile
  • Concevoir et mettre en oeuvre une hiérarchie dimensionnelle
  • Concevoir une solution pour les données temporelles
  • Concevoir des magasins analytiques
  • Concevoir des métastores dans Azure Synapse Analytics et Azure Databricks
  • Fournir des données dans des fichiers Parquet
  • Maintenir les métadonnées

Mettre en œuvre des structures de stockage de données physiques :

  • Mettre en œuvre la compression
  • Implémenter le partitionnement et le sharding
  • Implémenter différentes géométries de Table avec les pools Azure Synapse Analytics
  • Mettre en œuvre la redondance des données et l’archivage des données
  • Mettre en œuvre les distributions

Mettre en œuvre des structures de données logiques

  • Construire une solution de donnée temporelle et de dossier logique
  • Créer des tables externes

Ingérer et transformer des données

  • Transformer les données à l’aide d’Apache Spark, Transact-SQL, Data Factory, des pipelines Azure * Synapse et de Stream Analytics
  • Nettoyer les données
  • Déchiqueter JSON
  • Encoder et décoder les données
  • Configurer la gestion des erreurs pour la transformation
  • Normaliser et dénormaliser les valeurs
  • Transformer les données à l’aide de Scala
  • Effectuer une analyse exploratoire des données

Concevoir et développer une solution de traitement par lots

  • Développer des solutions de traitement par lots en utilisant Data Factory, Data Lake, Spark, Azure, * Pipeline Synapse, PolyBase et Azure Databricks
  • Créer des pipelines de données
  • Gérer les exigences de sécurité et de conformité
  • Mettre à l’échelle les ressources
  • Configurer la taille du lot
  • Concevoir et créer des tests pour les pipelines de données
  • Intégrer les notebooks Jupyter/IPython dans un pipeline de données
  • Gérer les données en double, manquantes, arrivées tardivement, upsert données.
  • Régresser à un état antérieur
  • Concevoir et configurer la gestion des exceptions, la rétention des lots.
  • Concevoir une solution de traitement par lots
  • Déboguer les tâches Spark à l’aide de l’interface utilisateur Spark

Concevoir et développer une solution de traitement de flux

  • Développer une solution de traitement de flux en utilisant Stream Analytics, Azure Databricks et Azure Event Hubs
  • Traiter les données à l’aide du streaming structuré Spark, les données de séries chronologiques
  • Surveiller les performances et les régressions fonctionnelles
  • Concevoir et créer des agrégats fenêtrés
  • Gérer la dérive de schéma
  • Processus à travers les partitions et traiter dans une partition
  • Configurer les points de contrôle/ le filigrane pendant le traitement
  • Mettre à l’échelle les ressources
  • Concevoir et créer des tests pour les pipelines de données
  • Optimiser les pipelines à des fins analytiques ou transactionnelles
  • Gérer les interruptions
  • Concevoir et configurer la gestion des exceptions
  • Relire les données de flux archivées
  • Concevoir une solution de traitement de flux

Gérer les lots et les pipelines

  • Déclencher des lots
  • Gérer les charges par lots ayant échoué
  • Valider les chargements de lots
  • Gérer et planifier les pipelines de données dans Data Factory/ Synapse Pipelines
  • Implémenter le contrôle de version pour les artefacts de pipeline
  • Gérer les jobs Spark dans un pipeline

Concevoir la sécurité des politiques et des normes de données

  • Concevoir le cryptage des données pour les données au repos et en transit
  • Concevoir une stratégie d'audit des données et de masquage des données
  • Concevoir une politique de conservation et de confidentialité des données
  • Concevoir pour purger les données en fonction des besoins de l'entreprise
  • Concevoir le contrôle d'accès basé sur les rôles Azure (Azure RBAC) et la liste de contrôle d'accès de type POSIX (ACL) pour Data Lake Storage Gen2
  • Conception de la sécurité au niveau des lignes et des colonnes

Mettre en œuvre la sécurité des données

  • Mettre en œuvre le masquage des données
  • Crypter les données au repos et en mouvement
  • Implémenter la sécurité au niveau des lignes et des colonnes
  • Implémenter Azure RBAC, des ACL de type POSIX pour Data Lake Storage Gen2
  • Mettre en œuvre une politique de conservation et une stratégie d'audit des données
  • Gérer les identités, les clés et les secrets sur différentes technologies de plate-forme de données, les informations sensibles
  • Implémenter des terminaux sécurisés (privés et publics) et des jetons de ressources dans Azure Databricks
  • Charger un DataFrame avec des informations sensibles
  • Ecrire des données chiffrées dans des tables ou des fichiers Parquet

Surveiller le stockage et le traitement des données

  • Implémenter la journalisation utilisée par Azure Monitor
  • Configurer les services de surveillance
  • Mesurer les performances du mouvement des données et les performances des requêtes
  • Surveiller et mettre à jour les statistiques sur les données d'un système
  • Surveiller les performances du pipeline de données et les performances du cluster
  • Comprendre les options de journalisation personnalisées
  • Planifier et surveiller les tests de pipeline
  • Interpréter les métriques et les journaux Azure Monitor
  • Interpréter un graphe acyclique dirigé par Spark (DAG)

Optimiser et dépanner le stockage et le traitement des données

  • Petits fichiers compacts et les partitions de manière aléatoire
  • Réécrire les fonctions définies par l'utilisateur (UDF)
  • Gérer le biais dans les données et le déversement de données
  • Trouver la lecture aléatoire dans un pipeline
  • Optimiser la gestion des ressources
  • Régler les requêtes à l'aide d'indexeurs ou à l'aide du cache
  • Optimiser le pipeline pour les charges de travail descriptives et analytiques
  • Dépanner un travail d'étincelle échoué ou une exécution de pipeline qui a échoué

La tarification d'Azure et le support

  • Les abonnements et souscriptions Azure
  • La planification et la gestion des coûts de la plateforme
  • Les SLA d'Azure
  • Le cycle de vie et les mises à jour des services Azure
  • Les différents supports disponibles

Validation des acquis

A la fin de cette formation, les stagiaires recevront une attestation de présence.

Pré-requis

Les candidats doivent avoir une expertise en matière d’intégration, de transformation et doivent savoir consolider divers systèmes de données structurés et non structurés dans un outils adapté à la création de solutions d’analyses. Il faut également une bonne connaissance des langages tels que SQL, Python ou Scala et comprendre l’architecture des données.

Pré-certification :

Cette formation prépare à la certification DP-203

Catalogue de formation cellenza training

Besoin d'informations supplémentaires ?

Retrouvez l'ensemble des nos formations dispensées par nos experts Azure, en DevOps et développement sur la stack Microsoft dans notre catalogue 2020.

Télécharger le catalogue

Cellenza

Créé en 2011, Cellenza est un cabinet de conseil, d’expertise technique et de réalisation, spécialisé sur les technologies Microsoft et sur les bonnes pratiques agiles. Cellenza intervient sur toute la chaîne de valeur IT : Conseil, développement de vos applications, formation, coaching et transfert de savoir-faire.