Couvre divers sujets en ingénierie des données à l'appui des systèmes d'aide à la décision, de l'analytique des données, de l'exploration des données, de l'apprentissage automatique et de l'intelligence artificielle. Étudie l'architecture des entrepôts de données sur site, la modélisation dimensionnelle des entrepôts de données, l'intégration Extract-Transform-Load (ETL) des systèmes sources à l'entrepôt de données, les systèmes de traitement analytique en ligne (OLAP) et le monde en évolution de la qualité et de la gouvernance des données. Offre aux étudiants la possibilité de concevoir, développer et maintenir des pipelines de données basés sur le cloud. Les plateformes sur site et basées sur le cloud seront utilisées pour illustrer et mettre en œuvre des techniques d'ingénierie des données en utilisant des entrepôts de données opérationnels et analytiques.
Dans ce module, vous découvrirez les processus ETL (Extrapôt, Transformation, Chargement), un élément essentiel des solutions d'Entreposage de données et d'Intégration de données. Les processus ETL peuvent être complexes et coûteux, mais une conception et une modélisation efficaces peuvent réduire considérablement les coûts de développement et de maintenance. Nous vous présenterons les bases de la notation BPMN (Business Process Modeling Notation), qui est cruciale pour la modélisation des processus métier. Nous nous concentrerons sur les bases de BPMN, y compris les composants clés tels que les objets de flux, les passerelles, les événements et les artefacts, qui sont essentiels pour la modélisation des processus métier. Vous découvrirez comment BPMN peut être adapté à la modélisation conceptuelle des tâches ETL, en mettant l'accent sur la différenciation entre les tâches de contrôle et les tâches de données. Les tâches de contrôle gèrent l'orchestration des processus ETL, tandis que les tâches de données gèrent la manipulation des données, toutes deux essentielles à la conceptualisation des flux de travail ETL. À la fin de ce module, vous aurez acquis une solide compréhension de la conception des processus ETL à l'aide de BPMN, ce qui vous permettra de bénéficier d'une plus grande flexibilité et d'une meilleure adaptabilité à travers différents outils.
Inclus
2 vidéos8 lectures2 devoirs
Afficher les informations sur le contenu du module
Évaluez votre apprentissage : Modélisation conceptuelle de l'ETL à l'aide de BPMN•12 minutes
Conception ETL 2
Module 2•1 heure à terminer
Détails du module
Dans ce module, vous plongerez dans Talend Studio, une puissante plateforme d'intégration de données basée sur Eclipse qui transforme les opérations ETL complexes en flux de travail visuels intuitifs. En explorant l'interface drag-and-drop de Talend, vous apprendrez à naviguer dans les composants centraux de la plateforme. Vous maîtriserez les opérations ETL fondamentales en étudiant des composants essentiels tels que tMap pour les transformations de données et les jointures complexes, tJoin pour la liaison directe des données, et divers composants d'entrée/sortie pour la connexion aux bases de données, aux fichiers et aux API. A la fin du module, vous comprendrez comment Talend génère automatiquement du code Java exécutable à partir de conceptions visuelles, vous permettant de créer des solutions d'intégration de données évolutives et prêtes pour la production, capables de gérer à la fois des scénarios de traitement par lots et de données en temps réel dans divers environnements technologiques.
Inclus
3 lectures1 devoir
Afficher les informations sur le contenu du module
3 lectures•Total 45 minutes
Vue d'ensemble du module 2•5 minutes
Conception ETL dans Talend•10 minutes
Guide rapide Talend•30 minutes
1 devoir•Total 15 minutes
Évaluez votre apprentissage : Talend•15 minutes
Ingénieur de données 1
Module 3•3 heures à terminer
Détails du module
Dans ce module, nous passons de l'Entrepôt de données sur site à l'Ingénieur de données. Si l'ingénierie des données trouve ses racines dans l'Entrepôt de données, elle englobe bien plus que cela. Nous explorerons les principaux catalyseurs de cette évolution, en particulier le cloud computing et DevOps. Vous découvrirez les avantages du développement en nuage, notamment l'amélioration de l'évolutivité, de la rentabilité et de la flexibilité des opérations de données. Nous plongerons également dans la façon dont les composants traditionnels de l'infrastructure IT, tels que la sécurité, le réseau et les ressources de calcul, sont redéfinis dans les environnements cloud à l'aide d'AWS. En outre, vous acquerrez une compréhension de DevOps dans le cloud, en vous concentrant sur l'utilisation de machines virtuelles et de conteneurs pour rationaliser l'intégration et le déploiement continus. Nous couvrirons les pratiques DevOps clés telles que l'infrastructure en tant que code (IaC), les pipelines CI/CD et les tests automatisés, en mettant l'accent sur leur rôle pour assurer la cohérence, des cycles de développement plus rapides et des applications sécurisées. Vous explorerez ensuite ce qu'implique l'ingénierie des données et les compétences requises pour devenir ingénieur des données. Enfin, nous présenterons le concept du cycle de vie de l'ingénierie des données et ses différentes phases, en nous concentrant sur les deux premières : La génération et le stockage des données.
Inclus
1 vidéo12 lectures2 devoirs
Afficher les informations sur le contenu du module
1 vidéo•Total 3 minutes
Introduction à l'ingénierie des données•3 minutes
12 lectures•Total 141 minutes
Vue d'ensemble du module 3•5 minutes
Informatique en nuage•10 minutes
Avantages et bonnes pratiques du développement en nuage•10 minutes
Similitudes entre l'informatique traditionnelle et AWS•10 minutes
DevOps dans l'informatique dématérialisée•10 minutes
Machines virtuelles et conteneurs•10 minutes
Cycle de vie du développement logiciel et CI/CD•10 minutes
De l'Entrepôt de données à l'Ingénieur de données•2 minutes
Introduction à l'ingénierie des données•11 minutes
Stockage et production•53 minutes
Génération : Considérations clés•5 minutes
Le stockage : Principaux éléments à prendre en compte•5 minutes
2 devoirs•Total 30 minutes
Évaluez votre apprentissage : Cloud computing et DevOps•15 minutes
Évaluez votre apprentissage : Stockage et génération•15 minutes
Ingénieur de données 2
Module 4•3 heures à terminer
Détails du module
Dans ce module, nous allons explorer les deux prochaines phases du cycle de vie des données : L'ingestion et la transformation. L'ingestion des données fait référence au processus de déplacement des données des systèmes sources vers le stockage, les rendant ainsi disponibles pour le traitement et l'analyse. Au cours de votre lecture, vous examinerez les principaux modèles d'ingestion, notamment l'ingestion par lots ou en continu, les méthodes synchrones ou asynchrones, ainsi que les approches push, pull et hybrides. Vous explorerez également des considérations techniques essentielles telles que l'évolutivité, la fiabilité et la gestion de la qualité des données, ainsi que les défis posés par les changements de schéma. La lecture présentera diverses technologies permettant l'ingestion de données, telles que JDBC/ODBC, Change Data Capture (CDC), les API et les plates-formes de flux d'événements comme Kafka. Nous nous concentrons ensuite sur la phase de transformation du cycle de vie, en explorant différents types de transformations qui intègrent une logique métier complexe dans les pipelines de données. À la fin du module, nous nous concentrerons sur l'architecture des données et la mise en œuvre de bons principes d'architecture pour construire des pipelines de données évolutifs et fiables.
Évaluez votre apprentissage : Requêtes, modèle de transformateur et transformation•15 minutes
2 éléments d'application•Total 35 minutes
Méthode Push & Pull dans les pipelines de données•15 minutes
Types de Transformation de données•20 minutes
Planification des pipelines
Module 5•1 heure à terminer
Détails du module
Dans ce module, nous allons explorer les caractéristiques des données et la façon dont elles influencent les décisions d'infrastructure. Dans le monde actuel axé sur les données, il est essentiel de comprendre les propriétés de vos données pour concevoir des pipelines de données robustes. Nous passerons en revue des caractéristiques clés telles que le volume, qui fait référence à la taille des ensembles de données, et la vélocité, qui concerne la fréquence à laquelle de nouvelles données sont générées. Nous nous pencherons également sur la variété, qui se concentre sur les formats et les sources de données, et sur la véracité, qui met l'accent sur l'exactitude et la fiabilité des données. L'objectif final est de découvrir la valeur des données grâce à une analyse perspicace. Au fur et à mesure que nous approfondirons la conception des pipelines, vous apprendrez comment ces caractéristiques influencent les décisions clés, telles que le choix des outils de stockage, de traitement et d'analytique. Nous couvrirons également les services AWS essentiels tels qu'Amazon S3, Glue et Athena, en explorant la façon dont ils prennent en charge l'ingénierie des données évolutive et flexible. À la fin de ce module, vous aurez une compréhension complète de la façon de construire des solutions de données efficaces pour répondre aux besoins techniques et commerciaux.
Inclus
6 lectures1 devoir
Afficher les informations sur le contenu du module
6 lectures•Total 50 minutes
Vue d'ensemble du module 5•5 minutes
Conception des pipelines•5 minutes
Un pipeline simple dans AWS•10 minutes
Outils AWS pour les solutions d'ingénierie des données•10 minutes
Architecture du lac de données•10 minutes
Architecture de Data Lakehouse sur AWS•10 minutes
1 devoir•Total 15 minutes
Évaluez votre apprentissage : Ingénieur de données sur AWS•15 minutes
Données de service
Module 6•2 heures à terminer
Détails du module
Bienvenue à la dernière étape du cycle de vie de l'ingénierie des données : servir les données. Dans ce module, nous nous concentrerons sur la façon de servir efficacement les données pour l'analytique, l'apprentissage automatique (ML) et l'ETL inverse afin de garantir que les produits de données que vous concevez sont fiables, exploitables et fiables pour les parties prenantes. Les sujets clés comprennent l'établissement de SLA, l'identification des cas d'utilisation, l'évolution des produits de données avec le retour d'information, la normalisation des définitions de données et l'exploration des méthodes de livraison telles que les échanges de fichiers, les bases de données et les systèmes de streaming. Nous aborderons également l'utilisation de l'ETL inversé pour améliorer les processus d'entreprise et discuterons de l'importance du contexte pour choisir le meilleur type de visualisation et les meilleurs outils. Nous nous pencherons ensuite sur les KPI et les métriques et sur la manière de les classer, y compris sur la manière d'identifier des KPI robustes en fonction du contexte de l'entreprise. Enfin, nous nous concentrerons sur la création de tableaux de bord intuitifs en choisissant les bonnes analyses, visualisations et mesures à présenter en fonction du contexte de l'entreprise et du public concerné. À la fin de ce module, vous comprendrez comment concevoir et servir des solutions de données qui conduisent à des actions significatives et qui ont la confiance des utilisateurs finaux.
Inclus
11 lectures1 devoir
Afficher les informations sur le contenu du module
11 lectures•Total 88 minutes
Vue d'ensemble du module 6•5 minutes
Données de service•36 minutes
Servir les données : Considérations clés•5 minutes
Contexte des visualisations•5 minutes
Comparaison des champs de visualisation•5 minutes
Types de visualisation des données et leurs avantages•10 minutes
Indicateurs clés de performance•5 minutes
KPI : Lignes directrices•5 minutes
Tableaux de bord•5 minutes
Tableaux de bord : Lignes directrices•5 minutes
Félicitations !•2 minutes
1 devoir•Total 15 minutes
Évaluez votre apprentissage : Servir les données et les visualisations•15 minutes
Fondée en 1898, Northeastern est une université de recherche internationale qui se distingue par une approche de l'éducation et de la découverte axée sur l'expérience. L'université est un leader en matière d'apprentissage par l'expérience, grâce au programme d'éducation coopérative le plus étendu au monde. L'esprit de collaboration guide une entreprise de recherche inspirée par l'utilisation et axée sur la résolution des défis mondiaux en matière de santé, de sécurité et de durabilité.
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Que recevrai-je si j'achète le certificat ?
Lorsque vous achetez un certificat, vous avez accès à tous les supports de cours, y compris les devoirs notés. Une fois le cours terminé, votre certificat électronique sera ajouté à votre page de réalisations. Vous pourrez alors l'imprimer ou l'ajouter à votre profil LinkedIn.
Une aide financière est-elle disponible ?
Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.