PySpark & Python : Guide pratique pour le traitement des données

Ce cours fait partie de Spécialisation "Spark et Python pour le Big data avec PySpark"

Instructeur : EDUCBA

2 779 déjà inscrits

Inclus avec En savoir plus

Demander à Coursera

2 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

42 avis

niveau Débutant

Expérience recommandée

5 heures à compléter

Planning flexible

Apprenez à votre propre rythme

2 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

42 avis

niveau Débutant

Expérience recommandée

5 heures à compléter

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Rappeler la syntaxe de Python et identifier les composants clés de PySpark pour le traitement des données.
Appliquer les transformations RDD, les jointures et l'intégration JDBC avec MySQL.
Construire des pipelines évolutifs comme le comptage de mots et déboguer les applications PySpark.

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

7 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Spark et Python pour le Big data avec PySpark"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 2 modules dans ce cours

Acquérez des bases solides en PySpark et en Python pour le traitement distribué des données grâce à cette formation pratique et adaptée aux débutants. Vous découvrirez comment le calcul distribué facilite l'analyse moderne des données tout en développant les compétences en programmation Python nécessaires à la création d'applications PySpark.

En commençant par la syntaxe Python, le contrôle de flux et les concepts de programmation fonctionnelle, vous apprendrez à travailler avec les Resilient Distributed Datasets (RDD), à appliquer les transformations et actions CORE de Spark, et à créer des workflows de traitement de données évolutifs. Au fil de votre progression, vous effectuerez des transformations de DataFrame, exécuterez des opérations de jointure, intégrerez des données MySQL à l’aide de JDBC et construirez un pipeline de comptage de mots afin de consolider vos techniques de traitement distribué. Conçu pour les débutants intéressés par le big data, le traitement des données et PySpark, ce cours combine des exercices pratiques de codage avec des explications claires pour vous aider à comprendre à la fois les concepts et leur application concrète. Tout au long du cours, vous vous exercerez à analyser, déboguer et évaluer des programmes PySpark tout en acquérant de l’expérience avec les workflows de données distribuées. À l’issue de ce cours, vous serez capable de créer et d’analyser des applications PySpark, de traiter efficacement des ensembles de données distribués, d’intégrer des sources de données externes et d’appliquer les concepts essentiels de l’ingénierie des données qui vous prépareront à des analyses de mégadonnées plus avancées.

Ce module présente aux apprenants les concepts fondamentaux nécessaires pour travailler avec PySpark, en commençant par l'évolution des données et la pertinence des cadres informatiques distribués. Il établit les bases de la programmation Python, en mettant l'accent sur la syntaxe, les structures et le flux de contrôle nécessaires au développement d'applications PySpark. A la fin de ce module, les apprenants seront dotés de connaissances essentielles en programmation et d'une compréhension claire de la manière d'initier le traitement de données basé sur PySpark.

Inclus

9 vidéos4 devoirs

9 vidéosTotal 73 minutes

Introduction à PySpark9 minutes
Les bases de Python10 minutes
Les bases de Python Continuer9 minutes
Programmation avec RDD7 minutes
Plus d'exemples7 minutes
Boucle Foreach7 minutes
Utilisation de la fonction de réduction7 minutes
Connectivité Mysql6 minutes
Visualisation des enregistrements à partir de Mysql10 minutes

4 devoirsTotal 60 minutes

Noté - Principes de base de PySpark et de Python30 minutes
Premiers pas avec PySpark et Python10 minutes
Travailler avec des RDD et des structures de contrôle10 minutes
Programmation fonctionnelle et accès aux données10 minutes

Ce module s'appuie sur les connaissances fondamentales de PySpark en présentant aux apprenants des opérations avancées, notamment la manipulation de DataFrame, les opérations de jointure et l'intégration de données externes avec MySQL. A travers des exemples pratiques, les étudiants exploreront comment traiter, combiner et analyser efficacement des ensembles de données distribuées. Le module culmine avec une application pratique à travers le problème classique du COUNT, renforçant les pipelines de transformation et les techniques d'agrégation dans un environnement distribué.

Inclus

7 vidéos3 devoirs

7 vidéosTotal 59 minutes

Plus d'exemples Partie 16 minutes
Plus d'exemples Partie 210 minutes
Pyspark adhère6 minutes
Exemples de jointures Pyspark9 minutes
Plus d'exemples sur Mysql Partie 113 minutes
Plus d'exemples sur Mysql Partie 24 minutes
Nombre de mots12 minutes

3 devoirsTotal 50 minutes

Gradé - Manipulation de données et jointures avancées dans PySpark30 minutes
Exemples appliqués et opérations de jonction10 minutes
Intégration de MySQL et du traitement de texte10 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Évaluations de l’enseignant

(6 évaluations)

EDUCBA

1 708 Cours365 036 apprenants

Offert par

EDUCBA

En savoir plus sur Analyse des données

Statut : Prévisualisation
Edureka
Introduction to PySpark
Cours
Statut : Essai gratuit
Edureka
PySpark in Action: Hands-On Data Processing
Cours
Statut : Essai gratuit
EDUCBA
PySpark: Apply & Analyze Advanced Data Processing
Cours
Coursera
PySpark Foundations: Process, analyze, and summarize data
Projet Guidé

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

5 stars
64,28 %
4 stars
23,80 %
3 stars
4,76 %
2 stars
2,38 %
1 star
4,76 %

Affichage de 3 sur 42

Révisé le 28 oct. 2025

I learned so much about PySpark architecture, transformations, and actions. Ideal for anyone stepping into data engineering.

Révisé le 9 nov. 2025

I can now write efficient PySpark pipelines confidently. This course truly delivers on its promises.

Révisé le 6 déc. 2025

I also appreciated the explanations around performance tuning and optimization basics, which many beginner courses often skip.

Voir plus d’avis

Débloquez l'accès à plus de 10 000 cours grâce à un abonnement
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez les 4 700 entreprises internationales qui ont choisi Coursera for Business.

Foire Aux Questions

Pour accéder aux supports de cours et aux devoirs, et obtenir un certificat, vous devrez acheter l'option « Certificat » lors de votre inscription à un cours. Les apprenants éligibles peuvent également avoir la possibilité de commencer par un essai gratuit. Certains cours peuvent également proposer une option « Cours complet, sans certificat ». Celle-ci vous permet d’accéder aux supports de cours, de rendre les évaluations requises et d’obtenir une note finale, mais vous ne pourrez ni obtenir ni acheter de certificat.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.