Ce cours de niveau débutant est conçu pour présenter aux apprenants la puissante combinaison de Python et Apache Spark (PySpark) pour le traitement et l'analyse des données distribuées. À travers des leçons structurées et des exemples du monde réel, les apprenants rappelleront la syntaxe fondamentale de Python, identifieront les éléments clés de PySpark et démontreront l'utilisation des transformations et des actions de base de Spark en utilisant des ensembles de données distribuées résilientes (RDD). Au fur et à mesure que le cours progresse, les apprenants appliqueront des techniques avancées de traitement des données telles que les jointures et l'intégration des données en utilisant JDBC avec MySQL, et construiront des pipelines de données évolutifs tels que le comptage de mots en utilisant des chaînes de transformation. Chaque module met l'accent sur un mélange de compréhension conceptuelle et d'expérience de codage pratique, permettant aux apprenants d'analyser, de déboguer et d'évaluer efficacement leurs applications PySpark. À la fin du cours, les apprenants auront acquis une compétence pratique dans la construction de flux de travail de données distribuées et seront prêts à avancer vers des défis plus complexes d'ingénierie des données et d'analytique des données.

PySpark & Python : Guide pratique pour le traitement des données

PySpark & Python : Guide pratique pour le traitement des données
Ce cours fait partie de Spécialisation "Spark et Python pour le Big data avec PySpark"

Instructeur : EDUCBA
2 422 déjà inscrits
Inclus avec
42 avis
Ce que vous apprendrez
Rappeler la syntaxe de Python et identifier les composants clés de PySpark pour le traitement des données.
Appliquer les transformations RDD, les jointures et l'intégration JDBC avec MySQL.
Construire des pipelines évolutifs comme le comptage de mots et déboguer les applications PySpark.
Compétences que vous acquerrez
- Catégorie : Informatique distribuée
- Catégorie : Importation/exportation de données
- Catégorie : Transformation des données
- Catégorie : Accès aux données
- Catégorie : Manipulation de données
- Catégorie : Traitement des données
- Catégorie : Pipelines de données
Outils que vous découvrirez
- Catégorie : Programmation Python
- Catégorie : Apache Spark
- Catégorie : MySQL
- Catégorie : PySpark
Détails à connaître

Ajouter à votre profil LinkedIn
7 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable

Il y a 2 modules dans ce cours
Obtenez un certificat professionnel
Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.
En savoir plus sur Analyse des données
Statut : PrévisualisationEdureka
Statut : Essai gratuit
Statut : Essai gratuit
Statut : Essai gratuit
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.
Avis des étudiants
- 5 stars
64,28 %
- 4 stars
23,80 %
- 3 stars
4,76 %
- 2 stars
2,38 %
- 1 star
4,76 %
Affichage de 3 sur 42
Révisé le 13 oct. 2025
If you want to master PySpark data processing from scratch, this course is your best bet! Clear concepts and hands-on coding make it valuable.
Révisé le 15 nov. 2025
Topics progress naturally—from basic operations to more advanced transformations—without overwhelming beginners.
Révisé le 28 oct. 2025
I learned so much about PySpark architecture, transformations, and actions. Ideal for anyone stepping into data engineering.
Foire Aux Questions
Plus de questions
Aide financière disponible,



