L'organisme de formation Cellenza Training obtient la certification Qualiopi 🎉
Accueil / Formation DP-203 : Data Engineering on Microsoft Azure

Formation DP-203 : Data Engineering on Microsoft Azure

AzureData
Niveau : Intermédiaire
Eligible CPF : Oui
Informations pratiques
Durée : 4 Jours
Prix distanciel : 2900 € HT/pers
Eligible CPF : Oui
Public Visé
  • Data engineers
  • Data scientists
Prochaines dates
Distanciel
6-9 décembre 2021

Présentation de la formation DP-203

Nous formons les Data Engineers sur les principes d’intégration, de transformation et de consolidation des données provenant de divers systèmes de données structurées et non structurées dans des structures qui conviennent à l’élaboration de solutions analytiques.

Cette formation vous aidera à maîtriser ces concepts en adoptant les meilleures pratiques.

Badge Microsoft : Azure Data EngineerDP-203 : Azure Data Engineer Associate

Objectifs pédagogiques de la formation DP-203

A l’issue de cette formation, les participants seront en capacité de :

  • Concevoir une structure de stockage de données,
  • Concevoir une stratégie de partition,
  • Concevoir et mettre en œuvre des couches de service,
  • Mettre en œuvre des structures de stockage de données physiques et de données logiques,
  • Intégrer et transformer des données,
  • Concevoir et développer des solutions de traitement par lot et par flux,
  • Gérer les lots et les pipelines,
  • Concevoir la sécurité des politiques et des normes de données,
  • Mettre en œuvre la sécurité des données,
  • Surveiller le stockage et le traitement des données,
  • Optimiser et dépanner le stockage et le traitement des données.
Programme de la formation DP-203

Concevoir une structure de stockage de données :

  • Concevoir une solution Azure Data Lake,
  • Recommander des types de fichiers pour le stockage,
  • Recommander des types de fichiers pour les requêtes analytiques,
  • Conception pour une interrogation efficace et pour l’élagage des données,
  • Concevoir une structure de dossiers qui représente les niveaux de transformation des données,
  • Concevoir une stratégie de distribution,
  • Concevoir une solution d’archivage de données.

 

Concevoir une stratégie de partition :

  • Pour les fichiers,
  • Pour les charges de travail analytiques,
  • Pour l’efficacité,
  • Pour Azure Synapse Analytics,
  • Identifier quand le partitionnement est nécessaire dans Azure Data Lake Storage Gen2.

Concevoir la couche de service :

  • Concevoir des schémas en étoile,
  • Concevoir des dimensions qui changent lentement,
  • Concevoir une hiérarchie dimensionnelle,
  • Concevoir une solution pour les données temporelles,
  • Conception pour chargement incrémentiel,
  • Concevoir des magasins analytiques,
  • Concevoir des metastores dans Azure Synapse Analytics et Azure Databricks.

 

Mettre en œuvre des structures de stockage de données physiques :

  • Mettre en œuvre la compression,
  • Implémenter le partitionnement et le sharding,
  • Implémenter différentes géométries de table avec les pools Azure Synapse Analytics,
  • Mettre en œuvre la redondance des données,
  • Mettre en œuvre des distributions,
  • Mettre en œuvre l’archivage des données.

 

Mettre en œuvre des structures de données logiques :

  • Construire une solution de données temporelles,
  • Construire une dimension qui change lentement,
  • Construire une structure de dossiers logique,
  • Créer des tables externes,
  • Implémenter des structures de fichiers et de dossiers pour une interrogation et un élagage des données efficaces.

 

Mettre en œuvre la couche de diffusion :

  • Fournir des données dans un schéma relationnel en étoile,
  • Fournir des données dans des fichiers Parquet,
  • Maintenir les métadonnées,
  • Mettre en œuvre une hiérarchie dimensionnelle.

 

Ingérer et transformer des données :

  • Transformer les données à l’aide d’Apache Spark,
  • Transformer les données à l’aide de Transact-SQL,
  • Transformer les données à l’aide de Data Factory,
  • Transformer les données à l’aide des pipelines Azure Synapse,
  • Transformer les données à l’aide de Scala,
  • Transformer les données à l’aide de Stream Analytics,
  • Nettoyer les données,
  • Données fractionnées,
  • Déchiqueter JSON,
  • Encoder et décoder les données,
  • Configurer la gestion des erreurs pour la transformation,
  • Normaliser et dénormaliser les valeurs,
  • Effectuer une analyse exploratoire des données.

 

Concevoir et développer une solution de traitement par lots :

  • Développer des solutions de traitement par lots en utilisant Data Factory, Data Lake, Spark, Azure Pipelines Synapse, PolyBase et Azure Databricks,
  • Créer des pipelines de données,
  • Concevoir et mettre en œuvre des charges de données incrémentielles,
  • Concevoir et développer des dimensions qui changent lentement,
  • Gérer les exigences de sécurité et de conformité,
  • Mettre à l’échelle les ressources,
  • Configurer la taille du lot,
  • Concevoir et créer des tests pour les pipelines de données,
  • Intégrer les notebooks Jupyter / IPython dans un pipeline de données,
  • Gérer les données en double, manquantes ou arrivées tardivement,
  • Régresser à un état antérieur,
  • Concevoir et configurer la gestion des exceptions,
  • Configurer la rétention des lots,
  • Concevoir une solution de traitement par lots,
  • Déboguer les tâches Spark à l’aide de l’interface utilisateur Spark.

 

Concevoir et développer une solution de traitement de flux :

  • Développer une solution de traitement de flux en utilisant Stream Analytics, Azure Databricks et Azure Event Hubs,
  • Traiter les données à l’aide du streaming structuré Spark,
  • Surveiller les performances et les régressions fonctionnelles,
  • Concevoir et créer des agrégats fenêtrés,
  • Gérer la dérive de schéma,
  • Traiter les données de séries chronologiques,
  • Processus à travers les partitions,
  • Traiter dans une partition,
  • Configurer les points de contrôle / le filigrane pendant le traitement,
  • Mettre à l’échelle les ressources,
  • Concevoir et créer des tests pour les pipelines de données,
  • Optimiser les pipelines à des fins analytiques ou transactionnelles,
  • Gérer les interruptions,
  • Concevoir et configurer la gestion des exceptions,
  • Relire les données de flux archivées,
  • Concevoir une solution de traitement de flux.

 

Concevoir la sécurité des politiques et des normes de données :

  • Concevoir le cryptage pour les données au repos et en transit,
  • Concevoir une stratégie d’audit des données et concevoir une stratégie de masquage des données,
  • Concevoir une politique de conservation et de confidentialité des données,
  • Créer une purge des données en fonction des besoins de l’entreprise,
  • Concevoir le contrôle d’accès basé sur les rôles Azure (Azure RBAC) et la liste de contrôle d’accès de type POSIX (ACL) pour Data Lake Storage Gen2,
  • Concevoir la sécurité au niveau des lignes et des colonnes.

 

Mettre en œuvre la sécurité des données :

  • Masquer, crypter des données,
  • Implémenter des terminaux sécurisés et la sécurité au niveau des lignes et des colonnes,
  • Implémenter Azure RBAC et des ACL de type POSIX pour Data Lake Storake Gen2,
  • Mettre en œuvre une politique de conservation et d’audit des données,
  • Gérer les identités, clé et secrets sur différentes plates-formes de données,
  • Charger un DataFrame avec des informations sensibles et gérer les informations sensibles,
  • Écrire des données chiffrées dans des tables ou fichiers Parquet.

 

Surveiller le stockage et le traitement des données :

  • Implémenter la journalisation utilisée par Azure Monitor,
  • Configurer les services de surveillance et mesurer les performances du mouvement des données,
  • Surveiller et mettre à jour les statistiques sur les données d’un système,
  • Surveiller les performances du pipeline de données et du cluster,
  • Mesurer les performances des requêtes,
  • Comprendre les options de journalisation personnalisées, planifier et surveiller les tests de pipeline,
  • Interpréter les métriques et les journaux Azure Monitor.

 

Optimiser et dépanner le stockage et le traitement des données :

  • Réécrire les fonctions définies par l’utilisateur (UDF),
  • Gérer le biais dans les données et le déversement de données,
  • Régler les partitions de manière aléatoire et les requêtes à l’aide d’indexeurs et du cache,
  • Trouver la lecture aléatoire dans un pipeline,
  • Optimiser la gestion des ressources,
  • Optimiser les pipelines à des fins analytiques ou transactionnelles et pour les charges de travail descriptives par rapport aux charges de travail analytiques,
  • Dépanner un travail ou une exécution ayant échoué.
Méthodes pédagogiques

Cette formation sera principalement constituée de théorie et d’ateliers techniques qui permettront d’être rapidement opérationnel.

  • Support : un support de cours officiel Microsoft en anglais sera remis aux participants au format électronique via la plateforme Skillpipe.
  • Travaux pratiques : un Lab sera remis aux participants, il restera accessible 180 jours après son activation.
  • Evaluation : les acquis sont évalués tout au long de la formation et en fin de formation par le formateur (questions régulières, travaux pratiques, QCM ou autres méthodes).
  • Formateur : le tout animé par un consultant-formateur expérimenté, nourri d’une expérience terrain, et accrédité Microsoft Certified Trainer.
  • Satisfaction : à l’issue de la formation, chaque participant répond à un questionnaire d’évaluation qui est ensuite analysé en vue de maintenir et d’améliorer la qualité de nos formations. Les appréciations que vous avez formulées font l’objet d’un enregistrement et d’une analyse qualitative de la formation et du formateur. Cellenza Training dispose d’un processus qualité qui prend en considération les retours des participants afin d’être proactif quant à la solution corrective adaptée.
  • Suivi : une feuille d’émargement par demi-journée de présence est signée par chacun des participants.

Cette formation peut être dispensée en format inter-entreprise ou intra-entreprise sur demande et en mode présentiel comme en distanciel.

Prérequis à la formation DP-203

Pour comprendre le contenu de la formation DP-303 – Data Engineering on Microsoft Azure, les participants doivent avoir une expertise en matière d’intégration, de transformation et doivent savoir consolider divers systèmes de données structurées et non structurées dans un outils adapté à la création de solutions d’analyses.

Nous préconisons aussi une bonne connaissance des langages SQL, Python ou Scala et une compréhension de l’architecture des données.

Nous demandons à ce que les candidats aient suivi la formation « AZ-900 : Azure Fundamentals » et « DP-900 : Azure Data Fundamentals » ou avoir un niveau d’expérience équivalent.

Les supports de cours et les travaux pratiques sont en anglais. Un niveau d’anglais B1 est requis pour suivre cette formation. Retrouvez les niveaux de langue sur ce lien : Classification des niveaux de langue

Il est fortement recommandé de suivre ce cours sur un ordinateur et de disposer d’un double écran pour plus de confort.

Accessibilité
Il est possible de vous inscrire jusqu’à 2 jours ouvrés avant le début de la formation, sous condition de places disponibles et de réception du devis signé.
Il est aussi possible – sur demande – d’adapter des moyens de la prestation pour les personnes en situation de handicap en fonction du type de handicap.
Le centre de formation Cellenza Training est situé au : 156 Boulevard Haussmann – 75008 Paris
Vous pouvez facilement y accéder par les transports en commun suivants :
  • Métro 9 : Miromesnil
  • Métro 13 : Saint-Philippe-du-Roule
  • Bus 22-43-52 : Courcelles ou Miromesnil
  • Bus 84 : Ruysdaël – Parc Monceau
Pré-certification

Cette formation ouvre la voie à la certification Microsoft « DP-203 – Data Engineering on Microsoft Azure ».

Pourquoi se certifier sur les sujets de Data ?

Les certifications Data Microsoft
Pré-inscription à la formation
Formation DP-203 : Data Engineering on Microsoft Azure

    Les informations personnelles vous concernant (nom prénom, adresse e-mail, téléphone professionnel) sont recueillies par CELLENZA et sont enregistrées dans les fichiers informatisés de notre société en qualité de responsable de traitement, aux fins (i) de répondre à votre demande et (ii) de prospection. Ces informations, collectées sur la base de votre consentement ou notre intérêt légitime, ne sont transmises à aucun tiers et seront conservées, trois ans maximum à compter de notre dernier contact. Ces données sont accessibles aux seules personnes au sein DE CELLENZA dûment habilitées. Vous pouvez exercer vos droits d’accès, de rectification, d’effacement, d’opposition, de limitation du traitement, ainsi que le droit à la portabilité de vos données, sur simple demande à l’adresse suivante : contact-gdpr@cellenza.com ou introduire une réclamation auprès de la CNIL. Pour plus d’informations sur vos droits, nous vous invitons à consulter le site www.cnil.fr

    Nos formations sur la même thématique

    Formation DP-100 : Designing and Implementing a Data Science Solution on Azure

    AzureData
    Niveau : Intermédiaire
    Durée : 3 Jours
    Cette formation permet d’acquérir les connaissances nécessaires pour utiliser les services Azure afin de développer, préparer et déployer des solutions…
    DP-100 : Azure Data Scientist AssociateBadge Microsoft : Azure Data Scientist Associate

    Formation DA-100 : Analyzing Data with Microsoft Power BI

    AzureData
    Niveau : Débutant
    Durée : 4 Jours
    Cette formation abordera les différentes méthodes et les bonnes pratiques conformes aux exigences commerciales et techniques en matière de modélisation,…
    DA-100 : Data Analyst AssociateBadge Microsoft : Data Analyst Associate