Décrire et comparer les processus d'extraction, de transformation et de chargement (ETL) et les processus d'extraction, de chargement et de transformation (ELT).
Expliquez les modes d'exécution batch et concurrent.
Mettre en œuvre le flux de travail ETL à l'aide de fonctions Bash et Python.
Décrire les composants, les processus, les outils et les technologies des pipelines de données.
Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.
Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable
Il y a 5 modules dans ce cours
Découvrez les deux approches différentes pour convertir des données brutes en données prêtes à être analysées. La première est le processus d'extraction, de transformation et de chargement (ETL). L'autre est le processus d'extraction, de chargement et de transformation (ELT). Les processus ETL s'appliquent aux entrepôts de données et aux marteaux de données. Les processus ELT s'appliquent aux lacs de données, où les données sont transformées à la demande par l'application requérante/appelante.
Dans ce cours, vous découvrirez les différents outils et techniques utilisés pour l'ETL et les pipelines de données. L'ETL et l'ELT extraient les données des systèmes sources, les déplacent à travers le pipeline de données et les stockent dans les systèmes de destination. Au cours de ce cours, vous découvrirez les différences entre le traitement ELT et ETL et vous identifierez des cas d'utilisation pour les deux. Vous identifierez les méthodes et les outils utilisés pour extraire les données, fusionner les données extraites soit logiquement soit physiquement, et pour charger les données dans les référentiels de données.
Vous définirez également les transformations à appliquer aux données sources pour les rendre crédibles, contextuelles et accessibles aux utilisateurs. Vous serez en mesure de présenter quelques-unes des multiples méthodes de chargement des données dans le système de destination, de vérifier la qualité des données, de surveiller les échecs de chargement et d'utiliser des mécanismes de récupération en cas d'échec.
À la fin de ce cours, vous saurez également comment utiliser Apache Airflow pour construire des pipelines de données et connaîtrez les avantages de cette approche. Vous apprendrez également à utiliser Apache Kafka pour construire des pipelines de streaming ainsi que les composants de base de Kafka qui incluent : les brokers, les topics, les partitions, les réplications, les producteurs et les consommateurs.
Enfin, vous réaliserez un projet final partageable qui vous permettra de démontrer les compétences acquises dans chaque module.
Les processus ETL ou Extraction, transformation et chargement sont utilisés dans les cas où la flexibilité, la vitesse et l'évolutivité des données sont importantes. Vous explorerez certaines différences clés entre des processus similaires, ETL et ELT, qui incluent la place de la transformation, la flexibilité, la prise en charge du Big data et le time-to-insight. Vous apprendrez qu'il y a une demande croissante d'accès aux données brutes qui motive l'évolution de l'ETL vers l'ELT. L'extraction de données implique des technologies avancées, notamment l'interrogation de bases de données, le web scraping et les API. Vous apprendrez également que la transformation des données consiste à formater les données pour les adapter à l'application et que les données sont chargées par lots ou en flux continu.
Inclus
7 vidéos3 lectures2 devoirs1 plugin
Afficher les informations sur le contenu du module
7 vidéos•Total 32 minutes
Vidéo d'introduction au cours•5 minutes
Principes de base de l'ETL•5 minutes
Les bases de l'ELT•4 minutes
Comparaison entre ETL et ELT•4 minutes
Techniques d'extraction de données•4 minutes
Introduction aux techniques de transformation des données•4 minutes
Techniques de chargement des données•4 minutes
3 lectures•Total 9 minutes
Pleins feux sur les produits IBM : IBM Instana•2 minutes
Introduction au cours•4 minutes
Résumé et points forts•3 minutes
2 devoirs•Total 40 minutes
Quiz noté : Processus ETL et ELT•30 minutes
Processus ETL et ELT•10 minutes
1 plugin•Total 5 minutes
Interactivité : Faites la différence entre ETL et ELT•5 minutes
ETL & Data Pipelines : Outils et techniques
Module 2•3 heures à terminer
Détails du module
Les pipelines d'extraction, de transformation et de chargement (ETL) sont créés à l'aide de scripts Bash qui peuvent être exécutés selon un calendrier à l'aide de cron. Les pipelines de données déplacent les données d'un endroit, ou d'une forme, à un autre. Les processus de pipeline de données comprennent la planification ou le déclenchement, la surveillance, la maintenance et l'optimisation. En outre, les pipelines de lots extraient et exploitent des lots de données. Les pipelines de données en continu, quant à eux, ingèrent des paquets de données un par un en succession rapide. Dans ce module, vous apprendrez que les pipelines de streaming s'appliquent lorsque les données les plus récentes sont nécessaires. Vous découvrirez que la parallélisation et les tampons d'E/S permettent d'atténuer les goulets d'étranglement. Vous apprendrez également à décrire les performances des pipelines de données en termes de latence et de débit.
Afficher les informations sur le contenu du module
5 vidéos•Total 25 minutes
ETL à l'aide de Shell Scripting•5 minutes
Introduction aux pipelines de données•4 minutes
Processus clés du pipeline de données•5 minutes
Cas d'utilisation des pipelines de données par lots ou en continu•5 minutes
Outils et technologies pour les pipelines de données•7 minutes
4 lectures•Total 15 minutes
Commandes Linux et scripts Shell•2 minutes
Techniques ETL•10 minutes
Résumé et points forts•1 minute
Résumé et points forts•2 minutes
4 devoirs•Total 80 minutes
Quiz noté : ETL à l'aide de scripts Shell•30 minutes
Quiz noté : Introduction aux pipelines de données•30 minutes
Quiz pratique : ETL à l'aide de scripts Shell•10 minutes
Quiz pratique : Introduction aux pipelines de données•10 minutes
1 élément d'application•Total 30 minutes
Laboratoire pratique : ETL à l'aide de scripts Shell•30 minutes
1 plugin•Total 10 minutes
Interactivité : Faire la différence entre le traitement par lots et le traitement en continu•10 minutes
Construire des pipelines de données avec Airflow
Module 3•3 heures à terminer
Détails du module
Le principal avantage de l'approche d'Apache Airflow pour représenter les pipelines de données sous forme de DAG est qu'ils sont exprimés sous forme de code, ce qui rend vos pipelines de données plus faciles à maintenir, à tester et à collaborer. Les tâches, les nœuds d'un DAG, sont créées en implémentant les opérateurs intégrés d'Airflow. Dans ce module, vous apprendrez qu'Apache Airflow possède une interface utilisateur riche qui simplifie le travail avec les pipelines de données. Vous explorerez comment visualiser votre DAG en mode graphe ou en mode arbre. Vous découvrirez également les composants clés d'un fichier de définition de DAG, et vous apprendrez que les logs Airflow sont sauvegardés dans des systèmes de fichiers locaux et ensuite envoyés vers un stockage en nuage, des moteurs de recherche, et des analyseurs de logs.
Construire un DAG en utilisant le flux d'air•4 minutes
Enregistrement et surveillance du débit d'air•4 minutes
1 lecture•Total 3 minutes
Résumé et points forts•3 minutes
2 devoirs•Total 40 minutes
Quiz noté : Données en cours d'utilisation d'Airflow•30 minutes
Quiz pratique : Construire des pipelines de données avec Airflow•10 minutes
4 éléments d'application•Total 120 minutes
Labo pratique : Premiers pas avec Apache Airflow•20 minutes
Labo pratique : Créer un DAG pour Apache Airflow avec PythonOperator•40 minutes
Labo pratique : Créer un DAG pour Apache Airflow avec BashOperator•40 minutes
Labo pratique : Surveillance d'un DAG•20 minutes
1 plugin•Total 15 minutes
Lecture : Structure et opérateurs DAG•15 minutes
Construire des pipelines de streaming avec Kafka
Module 4•3 heures à terminer
Détails du module
Apache Kafka est un pipeline de streaming d'événements open source très populaire. Un événement est un type de données qui décrit les mises à jour de l'état observable de l'entité au fil du temps. Les fournisseurs de services Kafka les plus populaires sont Confluent Cloud, IBM Event Stream et Amazon MSK. En outre, l'API Kafka Streams est une bibliothèque client qui vous aide à traiter les données dans les pipelines de streaming d'événements.
Dans ce module, vous apprendrez que les composants de base de CORE sont les courtiers, les sujets, les partitions, les réplications, les producteurs et les consommateurs. Vous explorerez deux types de processeurs spécialisés dans la topologie de traitement des flux de l'API Kafka Stream : Le processeur de source et le processeur de puits. Vous apprendrez également à construire des pipelines de streaming d'événements à l'aide de Kafka.
Dans ce module d'affectation finale, vous appliquerez vos connaissances nouvellement acquises pour explorer des laboratoires pratiques très passionnants. "Créer des pipelines de données ETL en cours d'utilisation avec Apache Airflow". Vous explorerez la construction de ces pipelines ETL en utilisant des scénarios du monde réel.
Inclus
5 lectures1 devoir1 évaluation par les pairs4 éléments d'application1 plugin
Afficher les informations sur le contenu du module
5 lectures•Total 25 minutes
Aperçu du projet•10 minutes
Instructions pour l'examen final noté et chronométré•10 minutes
Prochaines étapes : Explorer IBM Instana•1 minute
Félicitations et prochaines étapes•2 minutes
Remerciements de l'équipe du cours•2 minutes
1 devoir•Total 90 minutes
Quiz final chronométré•90 minutes
1 évaluation par les pairs•Total 30 minutes
Option 2 : Peer-To-Peer : Soumission du projet et examen par les pairs•30 minutes
4 éléments d'application•Total 275 minutes
Option 1 : IA-Graded - Soumission et évaluation finales•50 minutes
Labo pratique : Construire des pipelines de données ETL en cours d'utilisation avec BashOperator en utilisant Apache Airflow•90 minutes
[Optionnel] Labo pratique : Construire un pipeline ETL en utilisant PythonOperator avec Apache Airflow•90 minutes
[Optionnel] Labo pratique : Construire un pipeline ETL en continu avec Kafka•45 minutes
1 plugin•Total 15 minutes
Lecture : Lignes directrices pour la soumission finale et documents à fournir•15 minutes
Obtenez un certificat professionnel
Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.
Instructeurs
Évaluations de l’enseignant
Évaluations de l’enseignant
Nous avons demandé à tous les étudiants de fournir des commentaires sur nos enseignants au sujet de la qualité de leur pédagogie.
Chez IBM, nous savons à quel point la technologie évolue rapidement et nous reconnaissons le besoin crucial pour les entreprises et les professionnels d'acquérir rapidement des compétences pratiques prêtes à l'emploi. En tant qu'innovateur technologique leader sur le marché, nous nous engageons à vous aider à prospérer dans ce paysage dynamique. Grâce à IBM Skills Network, nos programmes de formation conçus par des experts en IA, développement de logiciels, cybersécurité, science des données, gestion d'entreprise, et plus encore, fournissent les compétences essentielles dont vous avez besoin pour décrocher votre premier emploi, faire progresser votre carrière ou favoriser la réussite de votre entreprise. Que vous vous perfectionniez ou que vous perfectionniez votre équipe, nos cours, nos spécialisations et nos certificats professionnels développent l'expertise technique qui vous assure, ainsi qu'à votre organisation, d'exceller dans un monde compétitif.
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Avis des étudiants
4.5
460 avis
5 stars
71,52 %
4 stars
17,39 %
3 stars
6,30 %
2 stars
2,39 %
1 star
2,39 %
Affichage de 3 sur 460
J
JJ
5·
Révisé le 22 juil. 2023
Labs in this course are very helpful and to the point. It took me a while to complete this course but i learned a lot.
S
SK
5·
Révisé le 20 janv. 2025
Relevant information in recordings, good recap of every video and hand-on lesson in the end to concrete the knowledge.
Y
YC
4·
Révisé le 16 janv. 2022
Love the labs, but do not like the robotic lectures.
Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Qu'est-ce que je recevrai si je m'abonne à ce certificat ?
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours du certificat et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - à partir de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.