Northeastern University

Entreposage et Intégrité des données Partie 2

Obtenez l'une de nos meilleures offres avec Coursera Plus pour 199 $ (habituellement 399 $). Économisez maintenant.

Northeastern University

Entreposage et Intégrité des données Partie 2

Venkat Krishnamurthy

Instructeur : Venkat Krishnamurthy

Inclus avec Coursera Plus

Demander à Coursera

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
1 semaine à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
1 semaine à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Compétences que vous acquerrez

  • Catégorie : L'informatique en nuage
  • Catégorie : DevOps
  • Catégorie : Infrastructure de données
  • Catégorie : Pipelines de données
  • Catégorie : Conception du processus
  • Catégorie : Flux de données
  • Catégorie : Extraire, transformer, charger
  • Catégorie : Intégration dans le nuage
  • Catégorie : Qualité des données
  • Catégorie : Intégration des données
  • Catégorie : Entreposage de données
  • Catégorie : Déploiement dans le nuage
  • Catégorie : Gestion des données
  • Catégorie : Modélisation des processus d'entreprise
  • Catégorie : Développement de l'informatique en nuage
  • Catégorie : Architecture des données
  • Catégorie : Traitement des données
  • Catégorie : Ingénierie des nuages
  • Catégorie : Gouvernance des données
  • Catégorie : Magasin de données

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

9 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Il y a 6 modules dans ce cours

Dans ce module, vous découvrirez les processus ETL (Extrapôt, Transformation, Chargement), un élément essentiel des solutions d'Entreposage de données et d'Intégration de données. Les processus ETL peuvent être complexes et coûteux, mais une conception et une modélisation efficaces peuvent réduire considérablement les coûts de développement et de maintenance. Nous vous présenterons les bases de la notation BPMN (Business Process Modeling Notation), qui est cruciale pour la modélisation des processus métier. Nous nous concentrerons sur les bases de BPMN, y compris les composants clés tels que les objets de flux, les passerelles, les événements et les artefacts, qui sont essentiels pour la modélisation des processus métier. Vous découvrirez comment BPMN peut être adapté à la modélisation conceptuelle des tâches ETL, en mettant l'accent sur la différenciation entre les tâches de contrôle et les tâches de données. Les tâches de contrôle gèrent l'orchestration des processus ETL, tandis que les tâches de données gèrent la manipulation des données, toutes deux essentielles à la conceptualisation des flux de travail ETL. À la fin de ce module, vous aurez acquis une solide compréhension de la conception des processus ETL à l'aide de BPMN, ce qui vous permettra de bénéficier d'une plus grande flexibilité et d'une meilleure adaptabilité à travers différents outils.

Inclus

2 vidéos8 lectures2 devoirs

Dans ce module, vous plongerez dans Talend Studio, une puissante plateforme d'intégration de données basée sur Eclipse qui transforme les opérations ETL complexes en flux de travail visuels intuitifs. En explorant l'interface drag-and-drop de Talend, vous apprendrez à naviguer dans les composants centraux de la plateforme. Vous maîtriserez les opérations ETL fondamentales en étudiant des composants essentiels tels que tMap pour les transformations de données et les jointures complexes, tJoin pour la liaison directe des données, et divers composants d'entrée/sortie pour la connexion aux bases de données, aux fichiers et aux API. A la fin du module, vous comprendrez comment Talend génère automatiquement du code Java exécutable à partir de conceptions visuelles, vous permettant de créer des solutions d'intégration de données évolutives et prêtes pour la production, capables de gérer à la fois des scénarios de traitement par lots et de données en temps réel dans divers environnements technologiques.

Inclus

3 lectures1 devoir

Dans ce module, nous passons de l'entreposage de données sur site à l'ingénierie des données. Si l'ingénierie des données trouve ses racines dans l'entreposage de données, elle englobe bien plus encore. Nous explorerons les principaux moteurs de cette évolution, notamment le cloud computing et le DevOps. Vous découvrirez les avantages du développement dans le cloud, notamment une évolutivité accrue, une meilleure rentabilité et une plus grande flexibilité dans les opérations sur les données. Nous examinerons également comment les composants traditionnels de l’infrastructure informatique — tels que la sécurité, la mise en réseau et les ressources de calcul — sont redéfinis dans les environnements cloud à l’aide d’AWS. De plus, vous acquerrez une compréhension du DevOps dans le cloud, en mettant l’accent sur l’utilisation des machines virtuelles et des conteneurs pour rationaliser l’intégration et le déploiement continus. Nous aborderons les pratiques DevOps essentielles telles que l’« Infrastructure as Code » (IaC), les pipelines CI/CD et les tests automatisés, en soulignant leur rôle dans la garantie de la cohérence, l’accélération des cycles de développement et la sécurité des applications. Vous découvrirez ensuite en quoi consiste l’ingénierie des données et quelles sont les compétences requises pour devenir ingénieur de données. Nous présenterons ensuite le concept de cycle de vie de l’ingénierie des données et ses différentes phases, en mettant l’accent sur les deux premières : la génération et le stockage des données. Enfin, nous mettrons ces concepts en pratique en présentant les principaux services AWS utilisés en ingénierie des données et en montrant comment construire un pipeline simple sur AWS, du stockage brut jusqu’à l’architecture de lac de données.

Inclus

1 vidéo16 lectures2 devoirs

Dans ce module, nous allons explorer les deux prochaines phases du cycle de vie des données : L'ingestion et la transformation. L'ingestion des données fait référence au processus de déplacement des données des systèmes sources vers le stockage, les rendant ainsi disponibles pour le traitement et l'analyse. Au cours de votre lecture, vous examinerez les principaux modèles d'ingestion, notamment l'ingestion par lots ou en continu, les méthodes synchrones ou asynchrones, ainsi que les approches push, pull et hybrides. Vous explorerez également des considérations techniques essentielles telles que l'évolutivité, la fiabilité et la gestion de la qualité des données, ainsi que les défis posés par les changements de schéma. La lecture présentera diverses technologies permettant l'ingestion de données, telles que JDBC/ODBC, Change Data Capture (CDC), les API et les plates-formes de flux d'événements comme Kafka. Nous nous concentrons ensuite sur la phase de transformation du cycle de vie, en explorant différents types de transformations qui intègrent une logique métier complexe dans les pipelines de données. À la fin du module, nous nous concentrerons sur l'architecture des données et la mise en œuvre de bons principes d'architecture pour construire des pipelines de données évolutifs et fiables.

Inclus

4 vidéos12 lectures2 devoirs2 éléments d'application

Dans ce module, nous allons explorer les caractéristiques des données et la façon dont elles influencent les décisions d'infrastructure. Dans le monde actuel axé sur les données, il est essentiel de comprendre les propriétés de vos données pour concevoir des pipelines de données robustes. Nous examinerons des caractéristiques clés telles que le volume, qui fait référence à la taille des ensembles de données, et la vélocité, qui concerne la fréquence à laquelle de nouvelles données sont générées. Nous nous pencherons également sur la variété, qui se concentre sur les formats et les sources de données, et sur la véracité, qui met l'accent sur l'exactitude et la fiabilité des données. L'objectif final est de découvrir la valeur des données grâce à une analyse perspicace. En approfondissant la conception des pipelines, vous apprendrez comment ces caractéristiques influencent les décisions clés, telles que le choix des outils de stockage, de traitement et d'analyse. Nous aborderons également AWS Lambda et l'architecture pilotée par les événements, en explorant comment le calcul sans serveur relie les couches de stockage et de traitement d'un pipeline cloud. Nous verrons comment les rôles d'exécution IAM, les déclencheurs d'événements S3 et les journaux CloudWatch fonctionnent ensemble pour rendre les pipelines réactifs et observables. Nous étendrons ensuite cette approche aux Glue Jobs et à Amazon QuickSight, en complétant le tableau depuis l'ingestion brute jusqu'à l'analyse et la visualisation. À la fin de ce module, vous aurez une compréhension complète de la façon de construire des solutions de données efficaces pour répondre aux besoins techniques et commerciaux.

Inclus

5 lectures1 devoir

Bienvenue à la dernière étape du cycle de vie de l'ingénierie des données : servir les données. Dans ce module, nous nous concentrerons sur la façon de servir efficacement les données pour l'analytique, l'apprentissage automatique (ML) et l'ETL inverse afin de garantir que les produits de données que vous concevez sont fiables, exploitables et fiables pour les parties prenantes. Les sujets clés comprennent l'établissement de SLA, l'identification des cas d'utilisation, l'évolution des produits de données avec le retour d'information, la normalisation des définitions de données et l'exploration des méthodes de livraison telles que les échanges de fichiers, les bases de données et les systèmes de streaming. Nous aborderons également l'utilisation de l'ETL inversé pour améliorer les processus d'entreprise et discuterons de l'importance du contexte pour choisir le meilleur type de visualisation et les meilleurs outils. Nous nous pencherons ensuite sur les KPI et les métriques et sur la manière de les classer, y compris sur la manière d'identifier des KPI robustes en fonction du contexte de l'entreprise. Enfin, nous nous concentrerons sur la création de tableaux de bord intuitifs en choisissant les bonnes analyses, visualisations et mesures à présenter en fonction du contexte de l'entreprise et du public concerné. À la fin de ce module, vous comprendrez comment concevoir et servir des solutions de données qui conduisent à des actions significatives et qui ont la confiance des utilisateurs finaux.

Inclus

11 lectures1 devoir

Instructeur

Venkat Krishnamurthy
Northeastern University
3 Cours651 apprenants

Offert par

En savoir plus sur Analyse des données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions