Apache Spark : Conception et exécution de pipelines ETL (Hands-On)

Obtenez l'une de nos meilleures offres avec Coursera Plus pour 199 $ (habituellement 399 $). Économisez maintenant.

Apache Spark : Conception et exécution de pipelines ETL (Hands-On)

Ce cours fait partie de Spécialisation "Spark et Python pour le Big data avec PySpark"

Instructeur : EDUCBA

Inclus avec

2 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

23 avis

niveau Intermédiaire

Expérience recommandée

4 heures à compléter

2 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

23 avis

niveau Intermédiaire

Expérience recommandée

4 heures à compléter

Ce que vous apprendrez

Installer et configurer PySpark, Hadoop et MySQL pour les flux de travail ETL.
Construisez des applications Spark pour des chargements de données complets et incrémentaux via JDBC.
Appliquer des transformations, gérer les problèmes de déploiement et optimiser les pipelines ETL.

Compétences que vous acquerrez

Catégorie : Pipelines de données
Catégorie : Environnement de développement
Catégorie : Importation/exportation de données
Catégorie : Transformation des données
Catégorie : Analyse exploratoire des données
Catégorie : Traitement des données
Catégorie : Ingénierie des données
Catégorie : Magasin de données
Catégorie : Extraire, transformer, charger
Catégorie : Installation du logiciel
Catégorie : SQL
Catégorie : Analyse des données

Outils que vous découvrirez

Catégorie : MySQL
Catégorie : Apache Spark
Catégorie : PySpark
Catégorie : Apache Hadoop
Catégorie : MySQL Workbench

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

6 devoirs

Enseigné en Anglais

Planning flexible

Apprenez à votre propre rythme

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Spark et Python pour le Big data avec PySpark"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 2 modules dans ce cours

Acquérez des compétences pratiques en ingénierie des données en apprenant à concevoir, développer et exécuter des pipelines ETL (Extract, Transform, Load) de bout en bout à l'aide d'Apache Spark. Dans cette formation pratique, vous commencerez par mettre en place un environnement de développement Spark, installer et configurer PySpark, Hadoop et MySQL, organiser les structures de projets ETL et explorer des ensembles de données réels.

Au fur et à mesure de votre progression, vous mettrez en œuvre des workflows ETL complets et incrémentiels à l’aide d’Apache Spark. Vous intégrerez Spark à MySQL via JDBC, appliquerez une logique de transformation des données avec Spark SQL, effectuerez des filtrages selon des règles métier et résoudrez des problèmes courants tels que la compatibilité des types de données et les défis liés à la structure des projets. Grâce à des exercices pratiques guidés, vous acquerrez de l’expérience dans la création de workflows ETL évolutifs dans un environnement PySpark. Ce cours s’adresse aux futurs ingénieurs de données, aux professionnels du big data et aux apprenants qui souhaitent acquérir une expérience pratique du développement ETL basé sur Spark. À l’issue de ce cours, vous serez capable de construire, d’exécuter et d’optimiser des pipelines ETL Spark, de mettre en œuvre des stratégies de chargement de données complètes et incrémentielles, et d’intégrer des applications Spark à des bases de données relationnelles via JDBC pour des workflows d’ingénierie des données en situation réelle.

Ce module présente aux apprenants les principes fondamentaux de la construction d'un framework ETL à l'aide d'Apache Spark. Il commence par donner un aperçu de l'écosystème Spark et de ses avantages dans le traitement des Big data. Les apprenants seront guidés dans l'installation et la configuration des progiciels essentiels, la mise en place de l'environnement de développement et la compréhension de la structure d'un projet ETL basé sur Spark. Le module aborde également la manière de travailler avec des ensembles de données du monde réel et de préparer des fichiers de configuration pour les interactions avec les bases de données - en posant des bases solides pour les flux de travail de traitement de données évolutifs.

Inclus

5 vidéos3 devoirs

5 vidéosTotal 52 minutes

Introduction au projet14 minutes
Installation des paquets7 minutes
L'installation des paquets se poursuit8 minutes
Mise en place de la structure du projet10 minutes
Exploration de l'ensemble de données12 minutes

3 devoirsTotal 60 minutes

Démarrer le projet ETL15 minutes
Construire la structure du projet et comprendre les données15 minutes
Quiz noté - Mise en place des fondations30 minutes

Ce module guide les apprenants dans la mise en œuvre pratique des processus d'Extraction, de transformation et de chargement (ETL) à l'aide d'Apache Spark. Les apprenants exploreront les chargements complets de données dans MySQL, appliqueront la logique de transformation à l'aide de Spark SQL et traiteront les scénarios de chargement incrémentiel en suivant et en gérant les nouveaux enregistrements. Les leçons comprennent la gestion des erreurs, les stratégies de filtrage, la compatibilité des types de données et l'intégration des bases de données à l'aide de JDBC - le tout dans un environnement PySpark pratique. Ce module renforce les connaissances appliquées de Spark pour les tâches d'ingénierie des données du monde réel.

Inclus

6 vidéos3 devoirs

6 vidéosTotal 47 minutes

Charge totale et transformations Partie 17 minutes
Chargement complet et transformations Partie 27 minutes
Charge totale et transformations Partie 37 minutes
Charge totale et transformations Partie 49 minutes
Chargement incrémentiel7 minutes
Chargement incrémentiel Continuer10 minutes

3 devoirsTotal 60 minutes

Chargement complet et transformations15 minutes
Gestion des charges incrémentielles15 minutes
Quiz noté - Construire des workflows ETL dans Apache Spark30 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Évaluations de l’enseignant

(7 évaluations)

EDUCBA

1 685 Cours341 855 apprenants

Offert par

EDUCBA

En savoir plus sur Analyse des données

Coursera
Engineering Data Ecosystems: Pipelines, ETL, Spark
Cours
Statut : Essai gratuit
Catégorie : Crédit proposé
Packt
Data Engineering with Scala and Spark
Cours
Catégorie : Crédit proposé
Packt
Apache Spark with Scala – Hands-On with Big Data!
Cours
Statut : Essai gratuit
Catégorie : Crédit proposé
Coursera
Building Automated Data Pipelines with Spark,dbt,and Airflow
Cours
Statut : Essai gratuit
Catégorie : Crédit proposé

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

5 stars
52,17 %
4 stars
34,78 %
3 stars
8,69 %
2 stars
0 %
1 star
4,34 %

Affichage de 3 sur 23

Révisé le 19 janv. 2026

Learners feel they actually build powerful pipelines — from raw ingestion to analytics-ready outputs, not just toy examples.

Révisé le 4 déc. 2025

Learners get a solid understanding of transformations, actions, filtering, joins, and aggregations using real code examples.

Révisé le 5 janv. 2026

I liked how this course didn’t just talk about Spark, but actually showed me how to build and run ETL pipelines — that’s rare in short courses.

Voir plus d’avis

Foire Aux Questions

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.

Plus de questions

Visitez le Centre d'Aide pour les Étudiants

Aide financière disponible,