Entreposage et Intégrité des données Partie 2

Obtenez l'une de nos meilleures offres avec Coursera Plus pour 199 $ (habituellement 399 $). Économisez maintenant.

Entreposage et Intégrité des données Partie 2

Instructeur : Venkat Krishnamurthy

Inclus avec

Demander à Coursera

6 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

1 semaine à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

6 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

1 semaine à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

Compétences que vous acquerrez

Catégorie : L'informatique en nuage
Catégorie : DevOps
Catégorie : Infrastructure de données
Catégorie : Pipelines de données
Catégorie : Conception du processus
Catégorie : Flux de données
Catégorie : Extraire, transformer, charger
Catégorie : Intégration dans le nuage
Catégorie : Qualité des données
Catégorie : Intégration des données
Catégorie : Entreposage de données
Catégorie : Déploiement dans le nuage
Catégorie : Gestion des données
Catégorie : Modélisation des processus d'entreprise
Catégorie : Développement de l'informatique en nuage
Catégorie : Architecture des données
Catégorie : Traitement des données
Catégorie : Ingénierie des nuages
Catégorie : Gouvernance des données
Catégorie : Magasin de données

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

9 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Il y a 6 modules dans ce cours

Couvre divers sujets en ingénierie des données à l'appui des systèmes d'aide à la décision, de l'analytique des données, de l'exploration des données, de l'apprentissage automatique et de l'intelligence artificielle. Étudie l'architecture des entrepôts de données sur site, la modélisation dimensionnelle des entrepôts de données, l'intégration Extract-Transform-Load (ETL) des systèmes sources à l'entrepôt de données, les systèmes de traitement analytique en ligne (OLAP) et le monde en évolution de la qualité et de la gouvernance des données. Offre aux étudiants la possibilité de concevoir, développer et maintenir des pipelines de données basés sur le cloud. Les plateformes sur site et basées sur le cloud seront utilisées pour illustrer et mettre en œuvre des techniques d'ingénierie des données en utilisant des entrepôts de données opérationnels et analytiques.

Dans ce module, vous découvrirez les processus ETL (Extrapôt, Transformation, Chargement), un élément essentiel des solutions d'Entreposage de données et d'Intégration de données. Les processus ETL peuvent être complexes et coûteux, mais une conception et une modélisation efficaces peuvent réduire considérablement les coûts de développement et de maintenance. Nous vous présenterons les bases de la notation BPMN (Business Process Modeling Notation), qui est cruciale pour la modélisation des processus métier. Nous nous concentrerons sur les bases de BPMN, y compris les composants clés tels que les objets de flux, les passerelles, les événements et les artefacts, qui sont essentiels pour la modélisation des processus métier. Vous découvrirez comment BPMN peut être adapté à la modélisation conceptuelle des tâches ETL, en mettant l'accent sur la différenciation entre les tâches de contrôle et les tâches de données. Les tâches de contrôle gèrent l'orchestration des processus ETL, tandis que les tâches de données gèrent la manipulation des données, toutes deux essentielles à la conceptualisation des flux de travail ETL. À la fin de ce module, vous aurez acquis une solide compréhension de la conception des processus ETL à l'aide de BPMN, ce qui vous permettra de bénéficier d'une plus grande flexibilité et d'une meilleure adaptabilité à travers différents outils.

Inclus

2 vidéos8 lectures2 devoirs

2 vidéosTotal 4 minutes

Aperçu du cours2 minutes
Rencontrez votre instructeur : Venkat Krishnamurthy2 minutes

8 lecturesTotal 87 minutes

Introduction au cours2 minutes
Syllabus - Entrepôt de données & Intégrité des données Partie 210 minutes
Intégrité académique1 minute
Module 1 : Conception ETL 15 minutes
Notation BPMN21 minutes
Conception de l'ETL à l'aide de BPMN28 minutes
Différenciation entre les tâches de contrôle et les tâches de traitement des données10 minutes
Types de données Tâches10 minutes

2 devoirsTotal 24 minutes

Évaluez votre apprentissage : Notation BPMN12 minutes
Évaluez votre apprentissage : Modélisation conceptuelle de l'ETL à l'aide de BPMN12 minutes

Dans ce module, vous plongerez dans Talend Studio, une puissante plateforme d'intégration de données basée sur Eclipse qui transforme les opérations ETL complexes en flux de travail visuels intuitifs. En explorant l'interface drag-and-drop de Talend, vous apprendrez à naviguer dans les composants centraux de la plateforme. Vous maîtriserez les opérations ETL fondamentales en étudiant des composants essentiels tels que tMap pour les transformations de données et les jointures complexes, tJoin pour la liaison directe des données, et divers composants d'entrée/sortie pour la connexion aux bases de données, aux fichiers et aux API. A la fin du module, vous comprendrez comment Talend génère automatiquement du code Java exécutable à partir de conceptions visuelles, vous permettant de créer des solutions d'intégration de données évolutives et prêtes pour la production, capables de gérer à la fois des scénarios de traitement par lots et de données en temps réel dans divers environnements technologiques.

Inclus

3 lectures1 devoir

Dans ce module, nous passons de l'entreposage de données sur site à l'ingénierie des données. Si l'ingénierie des données trouve ses racines dans l'entreposage de données, elle englobe bien plus encore. Nous explorerons les principaux moteurs de cette évolution, notamment le cloud computing et le DevOps. Vous découvrirez les avantages du développement dans le cloud, notamment une évolutivité accrue, une meilleure rentabilité et une plus grande flexibilité dans les opérations sur les données. Nous examinerons également comment les composants traditionnels de l’infrastructure informatique — tels que la sécurité, la mise en réseau et les ressources de calcul — sont redéfinis dans les environnements cloud à l’aide d’AWS. De plus, vous acquerrez une compréhension du DevOps dans le cloud, en mettant l’accent sur l’utilisation des machines virtuelles et des conteneurs pour rationaliser l’intégration et le déploiement continus. Nous aborderons les pratiques DevOps essentielles telles que l’« Infrastructure as Code » (IaC), les pipelines CI/CD et les tests automatisés, en soulignant leur rôle dans la garantie de la cohérence, l’accélération des cycles de développement et la sécurité des applications. Vous découvrirez ensuite en quoi consiste l’ingénierie des données et quelles sont les compétences requises pour devenir ingénieur de données. Nous présenterons ensuite le concept de cycle de vie de l’ingénierie des données et ses différentes phases, en mettant l’accent sur les deux premières : la génération et le stockage des données. Enfin, nous mettrons ces concepts en pratique en présentant les principaux services AWS utilisés en ingénierie des données et en montrant comment construire un pipeline simple sur AWS, du stockage brut jusqu’à l’architecture de lac de données.

Inclus

1 vidéo16 lectures2 devoirs

1 vidéoTotal 3 minutes

Introduction à l'ingénierie des données3 minutes

16 lecturesTotal 181 minutes

Vue d'ensemble du module 35 minutes
Informatique en nuage10 minutes
Avantages et bonnes pratiques du développement en nuage10 minutes
Similitudes entre l'informatique traditionnelle et AWS10 minutes
DevOps dans l'informatique dématérialisée10 minutes
Machines virtuelles et conteneurs10 minutes
Cycle de vie du développement logiciel et CI/CD10 minutes
De l'Entrepôt de données à l'Ingénieur de données2 minutes
Introduction à l'ingénierie des données11 minutes
Stockage et production53 minutes
Génération : Considérations clés5 minutes
Le stockage : Principaux éléments à prendre en compte5 minutes
Un pipeline simple dans AWS10 minutes
Outils AWS pour les solutions d'ingénierie des données10 minutes
Architecture du lac de données10 minutes
Architecture de Data Lakehouse sur AWS10 minutes

2 devoirsTotal 30 minutes

Évaluez votre apprentissage : Cloud computing et DevOps15 minutes
Évaluez votre apprentissage : Stockage et génération15 minutes

Dans ce module, nous allons explorer les deux prochaines phases du cycle de vie des données : L'ingestion et la transformation. L'ingestion des données fait référence au processus de déplacement des données des systèmes sources vers le stockage, les rendant ainsi disponibles pour le traitement et l'analyse. Au cours de votre lecture, vous examinerez les principaux modèles d'ingestion, notamment l'ingestion par lots ou en continu, les méthodes synchrones ou asynchrones, ainsi que les approches push, pull et hybrides. Vous explorerez également des considérations techniques essentielles telles que l'évolutivité, la fiabilité et la gestion de la qualité des données, ainsi que les défis posés par les changements de schéma. La lecture présentera diverses technologies permettant l'ingestion de données, telles que JDBC/ODBC, Change Data Capture (CDC), les API et les plates-formes de flux d'événements comme Kafka. Nous nous concentrons ensuite sur la phase de transformation du cycle de vie, en explorant différents types de transformations qui intègrent une logique métier complexe dans les pipelines de données. À la fin du module, nous nous concentrerons sur l'architecture des données et la mise en œuvre de bons principes d'architecture pour construire des pipelines de données évolutifs et fiables.

Inclus

4 vidéos12 lectures2 devoirs2 éléments d'application

4 vidéosTotal 9 minutes

Combiner le traitement par lots et le traitement en flux4 minutes
Approche hybride : Combinaison des méthodes "push" et "pull3 minutes
Introduction à la transformation1 minute
Conclusion sur la transformation1 minute

12 lecturesTotal 98 minutes

Vue d'ensemble du module 45 minutes
Ingestion18 minutes
Batching ou Streaming2 minutes
La mise en lots dans les pipelines de données5 minutes
Streaming dans les pipelines de données5 minutes
Pousser et tirer : Introduction2 minutes
Ingestion : Principales considérations5 minutes
Requêtes, modèles et transformateurs33 minutes
Transformation : Considérations clés2 minutes
Cycle de vie des données - Undercurrents11 minutes
Principes de l'architecture des données5 minutes
Exemples d'architecture de données5 minutes

2 devoirsTotal 30 minutes

Évaluez votre apprentissage : Ingestion15 minutes
Évaluez votre apprentissage : Requêtes, modèle de transformateur et transformation15 minutes

2 éléments d'applicationTotal 35 minutes

Méthode Push & Pull dans les pipelines de données15 minutes
Types de Transformation de données20 minutes

Dans ce module, nous allons explorer les caractéristiques des données et la façon dont elles influencent les décisions d'infrastructure. Dans le monde actuel axé sur les données, il est essentiel de comprendre les propriétés de vos données pour concevoir des pipelines de données robustes. Nous examinerons des caractéristiques clés telles que le volume, qui fait référence à la taille des ensembles de données, et la vélocité, qui concerne la fréquence à laquelle de nouvelles données sont générées. Nous nous pencherons également sur la variété, qui se concentre sur les formats et les sources de données, et sur la véracité, qui met l'accent sur l'exactitude et la fiabilité des données. L'objectif final est de découvrir la valeur des données grâce à une analyse perspicace. En approfondissant la conception des pipelines, vous apprendrez comment ces caractéristiques influencent les décisions clés, telles que le choix des outils de stockage, de traitement et d'analyse. Nous aborderons également AWS Lambda et l'architecture pilotée par les événements, en explorant comment le calcul sans serveur relie les couches de stockage et de traitement d'un pipeline cloud. Nous verrons comment les rôles d'exécution IAM, les déclencheurs d'événements S3 et les journaux CloudWatch fonctionnent ensemble pour rendre les pipelines réactifs et observables. Nous étendrons ensuite cette approche aux Glue Jobs et à Amazon QuickSight, en complétant le tableau depuis l'ingestion brute jusqu'à l'analyse et la visualisation. À la fin de ce module, vous aurez une compréhension complète de la façon de construire des solutions de données efficaces pour répondre aux besoins techniques et commerciaux.

Inclus

5 lectures1 devoir

Bienvenue à la dernière étape du cycle de vie de l'ingénierie des données : servir les données. Dans ce module, nous nous concentrerons sur la façon de servir efficacement les données pour l'analytique, l'apprentissage automatique (ML) et l'ETL inverse afin de garantir que les produits de données que vous concevez sont fiables, exploitables et fiables pour les parties prenantes. Les sujets clés comprennent l'établissement de SLA, l'identification des cas d'utilisation, l'évolution des produits de données avec le retour d'information, la normalisation des définitions de données et l'exploration des méthodes de livraison telles que les échanges de fichiers, les bases de données et les systèmes de streaming. Nous aborderons également l'utilisation de l'ETL inversé pour améliorer les processus d'entreprise et discuterons de l'importance du contexte pour choisir le meilleur type de visualisation et les meilleurs outils. Nous nous pencherons ensuite sur les KPI et les métriques et sur la manière de les classer, y compris sur la manière d'identifier des KPI robustes en fonction du contexte de l'entreprise. Enfin, nous nous concentrerons sur la création de tableaux de bord intuitifs en choisissant les bonnes analyses, visualisations et mesures à présenter en fonction du contexte de l'entreprise et du public concerné. À la fin de ce module, vous comprendrez comment concevoir et servir des solutions de données qui conduisent à des actions significatives et qui ont la confiance des utilisateurs finaux.

Inclus

11 lectures1 devoir

11 lecturesTotal 88 minutes

Vue d'ensemble du module 65 minutes
Données de service36 minutes
Servir les données : Considérations clés5 minutes
Contexte des visualisations5 minutes
Comparaison des champs de visualisation5 minutes
Types de visualisation des données et leurs avantages10 minutes
Indicateurs clés de performance5 minutes
KPI : Lignes directrices5 minutes
Tableaux de bord5 minutes
Tableaux de bord : Lignes directrices5 minutes
Félicitations !2 minutes

1 devoirTotal 15 minutes

Évaluez votre apprentissage : Servir les données et les visualisations15 minutes

Instructeur

Venkat Krishnamurthy

Northeastern University

3 Cours651 apprenants

Offert par

Northeastern University

En savoir plus sur Analyse des données

Statut : Prévisualisation
Northeastern University
Data Warehousing and Integration Part 1
Cours
Statut : Essai gratuit
University of Colorado System
Data Warehouse Concepts, Design, and Data Integration
Cours
Statut : Essai gratuit
Coursera
Data Modeling & Warehousing Fundamentals in Data Engineering
Cours
Statut : Essai gratuit
Coursera
Data Warehousing: Schema, ETL, Optimal Performance
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous achetez un certificat, vous avez accès à tous les supports de cours, y compris les devoirs notés. Une fois le cours terminé, votre certificat électronique sera ajouté à votre page de réalisations. Vous pourrez alors l'imprimer ou l'ajouter à votre profil LinkedIn.

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.