ETL et pipelines de données avec Shell, Airflow et Kafka

Obtenez l'une de nos meilleures offres avec Coursera Plus pour 199 $ (habituellement 399 $). Économisez maintenant.

ETL et pipelines de données avec Shell, Airflow et Kafka

Ce cours fait partie de plusieurs programmes.

Instructeur : Yan Luo

71 106 déjà inscrits

Inclus avec En savoir plus

Demander à Coursera

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

2 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

2 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Décrire et comparer les processus d'extraction, de transformation et de chargement (ETL) et les processus d'extraction, de chargement et de transformation (ELT).
Expliquez les modes d'exécution batch et concurrent.
Mettre en œuvre le flux de travail ETL à l'aide de fonctions Bash et Python.
Décrire les composants, les processus, les outils et les technologies des pipelines de données.

Compétences que vous acquerrez

Catégorie : Intégration des données
Catégorie : Pipelines de données
Catégorie : Transformation des données
Catégorie : Optimisation des performances
Catégorie : Extraire, transformer, charger
Catégorie : Data Mart
Catégorie : Entreposage de données
Catégorie : Nettoyage des données
Catégorie : Traitement des données

Outils que vous découvrirez

Catégorie : Script Shell
Catégorie : Flux d'air Apache
Catégorie : Bash (langage de script)
Catégorie : Lacs de données
Catégorie : Interface de ligne de commande
Catégorie : Apache Kafka

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

11 affectations¹

Noté par l'IA voir l'avis de non-responsabilité

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de

Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 5 modules dans ce cours

Découvrez les deux approches différentes pour convertir des données brutes en données prêtes à être analysées. La première est le processus d'extraction, de transformation et de chargement (ETL). L'autre est le processus d'extraction, de chargement et de transformation (ELT). Les processus ETL s'appliquent aux entrepôts de données et aux marteaux de données. Les processus ELT s'appliquent aux lacs de données, où les données sont transformées à la demande par l'application requérante/appelante.

Dans ce cours, vous découvrirez les différents outils et techniques utilisés pour l'ETL et les pipelines de données. L'ETL et l'ELT extraient les données des systèmes sources, les déplacent à travers le pipeline de données et les stockent dans les systèmes de destination. Au cours de ce cours, vous découvrirez les différences entre le traitement ELT et ETL et vous identifierez des cas d'utilisation pour les deux. Vous identifierez les méthodes et les outils utilisés pour extraire les données, fusionner les données extraites soit logiquement soit physiquement, et pour charger les données dans les référentiels de données. Vous définirez également les transformations à appliquer aux données sources pour les rendre crédibles, contextuelles et accessibles aux utilisateurs. Vous serez en mesure de présenter quelques-unes des multiples méthodes de chargement des données dans le système de destination, de vérifier la qualité des données, de surveiller les échecs de chargement et d'utiliser des mécanismes de récupération en cas d'échec. À la fin de ce cours, vous saurez également comment utiliser Apache Airflow pour construire des pipelines de données et connaîtrez les avantages de cette approche. Vous apprendrez également à utiliser Apache Kafka pour construire des pipelines de streaming ainsi que les composants de base de Kafka qui incluent : les brokers, les topics, les partitions, les réplications, les producteurs et les consommateurs. Enfin, vous réaliserez un projet final partageable qui vous permettra de démontrer les compétences acquises dans chaque module.

Les processus ETL (Extract, Transform, Load) sont utilisés dans les cas où la flexibilité, la rapidité et l’évolutivité des données sont essentielles. Vous découvrirez certaines différences clés entre des processus similaires, à savoir l’ETL et l’ELT, notamment en ce qui concerne le lieu de la transformation, la flexibilité, la prise en charge du Big Data et le délai d’obtention d’informations exploitables. Vous découvrirez qu’il existe une demande croissante d’accès aux données brutes, ce qui favorise l’évolution de l’ETL vers l’ELT. L’extraction de données fait appel à des technologies avancées, notamment les requêtes sur bases de données, le web scraping et les API. Vous apprendrez également que la transformation des données consiste à les formater pour les adapter à l’application et que les données sont chargées par lots ou transmises en continu.

Inclus

7 vidéos3 lectures2 devoirs1 plugin

7 vidéosTotal 32 minutes

Vidéo d'introduction au cours5 minutes
Principes de base de l'ETL5 minutes
Les bases de l'ELT4 minutes
Comparaison entre ETL et ELT4 minutes
Techniques d'extraction de données4 minutes
Introduction aux techniques de transformation des données4 minutes
Techniques de chargement des données4 minutes

3 lecturesTotal 9 minutes

Pleins feux sur les produits IBM : IBM Instana2 minutes
Introduction au cours4 minutes
Résumé et points forts3 minutes

2 devoirsTotal 40 minutes

Processus ETL et ELT10 minutes
Quiz noté : Processus ETL et ELT30 minutes

1 pluginTotal 5 minutes

Interactivité : Faites la différence entre ETL et ELT5 minutes

Les pipelines d'extraction, de transformation et de chargement (ETL) sont créés à l'aide de scripts Bash qui peuvent être exécutés selon un calendrier à l'aide de cron. Les pipelines de données déplacent les données d'un endroit, ou d'une forme, à un autre. Les processus de pipeline de données comprennent la planification ou le déclenchement, la surveillance, la maintenance et l'optimisation. En outre, les pipelines de lots extraient et exploitent des lots de données. Les pipelines de données en continu, quant à eux, ingèrent des paquets de données un par un en succession rapide. Dans ce module, vous apprendrez que les pipelines de streaming s'appliquent lorsque les données les plus récentes sont nécessaires. Vous découvrirez que la parallélisation et les tampons d'E/S permettent d'atténuer les goulets d'étranglement. Vous apprendrez également à décrire les performances des pipelines de données en termes de latence et de débit.

Inclus

5 vidéos4 lectures4 devoirs1 élément d'application1 plugin

5 vidéosTotal 25 minutes

ETL à l'aide de Shell Scripting5 minutes
Introduction aux pipelines de données4 minutes
Processus clés du pipeline de données5 minutes
Cas d'utilisation des pipelines de données par lots ou en continu5 minutes
Outils et technologies pour les pipelines de données7 minutes

4 lecturesTotal 15 minutes

Commandes Linux et scripts Shell2 minutes
Techniques ETL10 minutes
Résumé et points forts1 minute
Résumé et points forts2 minutes

4 devoirsTotal 80 minutes

Quiz pratique : ETL à l'aide de scripts Shell10 minutes
Quiz pratique : Introduction aux pipelines de données10 minutes
Quiz noté : ETL à l'aide de scripts Shell30 minutes
Quiz noté : Introduction aux pipelines de données30 minutes

1 élément d'applicationTotal 30 minutes

Laboratoire pratique : ETL à l'aide de scripts Shell30 minutes

1 pluginTotal 10 minutes

Interactivité : Faire la différence entre le traitement par lots et le traitement en continu10 minutes

Le principal avantage de l'approche d'Apache Airflow pour représenter les pipelines de données sous forme de DAG est qu'ils sont exprimés sous forme de code, ce qui rend vos pipelines de données plus faciles à maintenir, à tester et à collaborer. Les tâches, les nœuds d'un DAG, sont créées en implémentant les opérateurs intégrés d'Airflow. Dans ce module, vous apprendrez qu'Apache Airflow possède une interface utilisateur riche qui simplifie le travail avec les pipelines de données. Vous explorerez comment visualiser votre DAG en mode graphe ou en mode arbre. Vous découvrirez également les composants clés d'un fichier de définition de DAG, et vous apprendrez que les logs Airflow sont sauvegardés dans des systèmes de fichiers locaux et ensuite envoyés vers un stockage en nuage, des moteurs de recherche, et des analyseurs de logs.

Inclus

5 vidéos1 lecture2 devoirs4 éléments d'application1 plugin

5 vidéosTotal 25 minutes

Présentation d'Apache Airflow6 minutes
Avantages de la représentation des pipelines de données sous forme de DAG dans Apache Airflow7 minutes
L'interface utilisateur d'Apache Airflow4 minutes
Construire un DAG en utilisant le flux d'air4 minutes
Enregistrement et surveillance du débit d'air4 minutes

1 lectureTotal 3 minutes

Résumé et points forts3 minutes

2 devoirsTotal 40 minutes

Quiz pratique : Construire des pipelines de données avec Airflow10 minutes
Quiz noté : Données en cours d'utilisation d'Airflow30 minutes

4 éléments d'applicationTotal 120 minutes

Labo pratique : Premiers pas avec Apache Airflow20 minutes
Labo pratique : Créer un DAG pour Apache Airflow avec PythonOperator40 minutes
Labo pratique : Créer un DAG pour Apache Airflow avec BashOperator40 minutes
Labo pratique : Surveillance d'un DAG20 minutes

1 pluginTotal 15 minutes

Lecture : Structure et opérateurs DAG15 minutes

Apache Kafka est un pipeline de streaming d'événements open source très populaire. Un événement est un type de données qui décrit les mises à jour de l'état observable de l'entité au fil du temps. Les fournisseurs de services Kafka les plus populaires sont Confluent Cloud, IBM Event Stream et Amazon MSK. En outre, l'API Kafka Streams est une bibliothèque client qui vous aide à traiter les données dans les pipelines de streaming d'événements. Dans ce module, vous apprendrez que les composants de base de CORE sont les courtiers, les sujets, les partitions, les réplications, les producteurs et les consommateurs. Vous explorerez deux types de processeurs spécialisés dans la topologie de traitement des flux de l'API Kafka Stream : Le processeur de source et le processeur de puits. Vous apprendrez également à construire des pipelines de streaming d'événements à l'aide de Kafka.

Inclus

4 vidéos1 lecture2 devoirs3 éléments d'application1 plugin

4 vidéosTotal 26 minutes

Composants de la plate-forme de diffusion en continu d'événements distribués6 minutes
Présentation d'Apache Kafka6 minutes
Construire des pipelines de streaming d'événements avec Kafka10 minutes
Processus de streaming Kafka5 minutes

1 lecture

Résumé et points forts0 minutes

2 devoirsTotal 40 minutes

Quiz pratique : Construire des pipelines de streaming avec Kafka10 minutes
Quiz noté : Construire des pipelines de streaming avec Kafka30 minutes

3 éléments d'applicationTotal 90 minutes

Laboratoire pratique : Travailler avec des données en continu en utilisant Kafka20 minutes
[Facultatif] Labo pratique : Clés et décalages de messages Kafka40 minutes
[Optionnel] Labo pratique : Client Kafka Python30 minutes

1 pluginTotal 30 minutes

Client Kafka Python30 minutes

Dans ce module d'affectation finale, vous appliquerez vos connaissances nouvellement acquises pour explorer des laboratoires pratiques très passionnants. "Créer des pipelines de données ETL en cours d'utilisation avec Apache Airflow". Vous explorerez la construction de ces pipelines ETL en utilisant des scénarios du monde réel.

Inclus

5 lectures1 devoir1 évaluation par les pairs4 éléments d'application1 plugin

5 lecturesTotal 25 minutes

Aperçu du projet10 minutes
Instructions pour l'examen final noté et chronométré10 minutes
Prochaines étapes : Explorer IBM Instana1 minute
Félicitations et prochaines étapes2 minutes
Remerciements de l'équipe du cours2 minutes

1 devoirTotal 90 minutes

Quiz final chronométré90 minutes

1 évaluation par les pairsTotal 30 minutes

Option 2 : Peer-To-Peer : Soumission du projet et examen par les pairs30 minutes

4 éléments d'applicationTotal 275 minutes

Option 1 : IA-Graded - Soumission et évaluation finales50 minutes
Labo pratique : Construire des pipelines de données ETL en cours d'utilisation avec BashOperator en utilisant Apache Airflow90 minutes
[Optionnel] Labo pratique : Construire un pipeline ETL en utilisant PythonOperator avec Apache Airflow90 minutes
[Optionnel] Labo pratique : Construire un pipeline ETL en continu avec Kafka45 minutes

1 pluginTotal 15 minutes

Lecture : Lignes directrices pour la soumission finale et documents à fournir15 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Yan Luo

IBM

7 Cours414 263 apprenants

Offert par

IBM

En savoir plus sur Gestion des données

Statut : Essai gratuit
Coursera
Building Automated Data Pipelines with Spark,dbt,and Airflow
Cours
Statut : Essai gratuit
EDUCBA
Apache Spark: Design & Execute ETL Pipelines Hands-On
Cours
Statut : Prévisualisation
Edureka
Data Engineering Workflow Orchestration with Airflow
Cours
Statut : Essai gratuit
Coursera
Automate Data Workflows with Airflow Excellence
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

Pour accéder aux supports de cours et aux devoirs, et obtenir un certificat, vous devrez acheter l'option « Certificat » lors de votre inscription à un cours. Les apprenants éligibles peuvent également avoir la possibilité de commencer par un essai gratuit. Certains cours peuvent également proposer une option « Cours complet, sans certificat ». Celle-ci vous permet d’accéder aux supports de cours, de rendre les évaluations requises et d’obtenir une note finale, mais vous ne pourrez ni obtenir ni acheter de certificat.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours du certificat et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - à partir de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Plus de questions

Visitez le Centre d'Aide pour les Étudiants

Aide financière disponible,

¹ Certains travaux de ce cours sont notés par l'IA. Pour ces travaux, vos Données internes seront utilisées conformément à Notification de confidentialité de Coursera.