Optimiser les performances et le débit de Spark

Obtenez l'une de nos meilleures offres avec Coursera Plus pour 199 $ (habituellement 399 $). Économisez maintenant.

Optimiser les performances et le débit de Spark

Ce cours fait partie de plusieurs programmes.

Instructeur : Merna Elzahaby

Inclus avec

3 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

4 heures à compléter

Planning flexible

Apprenez à votre propre rythme

3 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

4 heures à compléter

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Analyser l'interface utilisateur et les indicateurs de Spark (durée des tâches, E/S de shuffle, utilisation du processeur et de la mémoire par les exécuteurs) afin d'identifier les goulots d'étranglement et de proposer des optimisations concrètes.
Appliquer des techniques de partitionnement et d'atténuation de l'asymétrie (salting/partitionneur personnalisé) et réduire le shuffle (joins par diffusion, éviter groupByKey, AQE) afin d'améliorer le parallélisme.
Configurez les paramètres relatifs aux exécuteurs, aux COREs, à la mémoire, à l'allocation dynamique et au parallélisme/mise en cache afin d'optimiser le débit tout en respectant les objectifs SLA définis.

Compétences que vous acquerrez

Catégorie : Allocation des ressources
Catégorie : Gestion de la mémoire
Catégorie : Analyse de l'emploi
Catégorie : Optimisation des processus
Catégorie : Analyse des performances
Catégorie : Optimisation des performances
Catégorie : Niveau de service
Catégorie : Configuration du système

Outils que vous découvrirez

Catégorie : Apache Spark
Catégorie : PySpark

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

février 2026

Évaluations

1 devoir

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de

Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 3 modules dans ce cours

Dans les environnements d’ingénierie des données à grande échelle, les problèmes de performances tels que la lenteur des transformations, le nombre excessif d’opérations de shuffle et le déséquilibre des charges de travail peuvent avoir un impact sur l’analyse, le reporting et le respect des engagements SLA. Cette formation vous apprend à analyser, diagnostiquer et optimiser les applications Spark afin qu’elles s’exécutent plus rapidement, plus efficacement et de manière plus fiable. Au cours de cette formation, vous commencerez par acquérir les bases de l’exécution des tâches Spark, notamment en découvrant comment les étapes, les tâches, les opérations de shuffle et les plans d’exécution permettent d’identifier les goulots d’étranglement. Vous explorerez les outils de surveillance intégrés à Spark pour interpréter le comportement des tâches. À partir de là, vous appliquerez des techniques d’optimisation pratiques, notamment l’amélioration du partitionnement des données, l’atténuation de l’asymétrie des données, l’optimisation des jointures, la configuration de stratégies de mise en cache et le choix de formats de fichiers efficaces. Vous apprendrez également à régler les exécuteurs, la mémoire, les COREs et l’allocation dynamique afin d’équilibrer les coûts et les performances entre les charges de travail.

Les apprenants doivent posséder des connaissances de base en Python et en DataFrames Spark, ainsi qu’une bonne maîtrise de JSON et de SQL. Ce cours s’adresse aux ingénieurs de données et aux développeurs qui doivent diagnostiquer et optimiser des tâches Spark s’exécutant sur des pipelines de données distribués à grande échelle. À l’issue de cette formation, vous disposerez des compétences nécessaires pour appliquer en toute confiance des stratégies de réglage avancées, améliorer le débit, réduire la surcharge liée au shuffle et optimiser l’utilisation des ressources.

Ce module présente aux apprenants le modèle d'exécution des tâches de Spark ainsi que ses principaux indicateurs de performance. Les apprenants découvriront l'interface utilisateur de Spark, apprendront à interpréter les étapes des tâches, les tâches elles-mêmes et les indicateurs de « shuffle », et sauront diagnostiquer les goulots d'étranglement en matière de performance à l'aide de journaux de tâches réels.

Inclus

4 vidéos2 lectures1 évaluation par les pairs

4 vidéosTotal 29 minutes

Bienvenue et ce que vous allez apprendre3 minutes
Comprendre l'exécution des tâches Spark7 minutes
Indicateurs clés pour identifier les goulots d'étranglement7 minutes
Exemple pratique : utilisation de Spark UI pour détecter les problèmes11 minutes

2 lecturesTotal 10 minutes

Bienvenue au cours : Aperçu du cours5 minutes
Interprétation de l'interface utilisateur de Spark5 minutes

1 évaluation par les pairsTotal 20 minutes

Apprentissage pratique : analyser une tâche Spark à l'aide de l'interface utilisateur de Spark20 minutes

Ce module enseigne aux apprenants comment résoudre les goulots d'étranglement les plus courants dans Spark : asymétrie des données, shuffling excessif, jointures inefficaces et partitionnement inadéquat. Les apprenants mettent en pratique des techniques telles que le salting, le repartitionnement, les jointures de diffusion et l'AQE.

Inclus

3 vidéos1 lecture1 évaluation par les pairs

3 vidéosTotal 26 minutes

Comprendre le biais et le brassage des données7 minutes
Stratégies de partitionnement pour des charges de travail équilibrées7 minutes
AQE en action : optimisation automatique des plans de requête12 minutes

1 lectureTotal 5 minutes

Techniques visant à réduire la surcharge liée au remaniement5 minutes

1 évaluation par les pairsTotal 20 minutes

Apprentissage pratique : corriger une tâche Spark présentant un déséquilibre des données20 minutes

Ce module est consacré à la configuration des ressources Spark (exécuteurs, CPU, mémoire, allocation dynamique, parallélisme) et à l'optimisation des paramètres des tâches afin de maximiser le débit et de respecter des accords de niveau de service (SLA) stricts en matière de performances.

Inclus

4 vidéos1 lecture1 devoir2 évaluations par les pairs

4 vidéosTotal 31 minutes

Comprendre les exécuteurs, les COREs et la mémoire7 minutes
Allocation dynamique et optimisation du parallélisme8 minutes
Exemple pratique : optimisation d'une tâche pour respecter le SLA12 minutes
Synthèse du cours et prochaines étapes4 minutes

1 lectureTotal 5 minutes

Bonnes pratiques pour une optimisation axée sur le SLA5 minutes

1 devoirTotal 25 minutes

Optimiser les performances et le débit de Spark25 minutes

2 évaluations par les pairsTotal 80 minutes

Apprentissage pratique : optimiser une tâche Spark pour respecter un SLA donné20 minutes
Projet : Optimisation de bout en bout des tâches Spark60 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Merna Elzahaby

Coursera

1 Cours114 apprenants

Offert par

Coursera

En savoir plus sur Informatique en nuage

Statut : Essai gratuit
Coursera
Optimize Spark Performance: Analyze & Accelerate
Cours
Statut : Essai gratuit
Coursera
Fix Data Bottlenecks: Optimize Spark Performance
Cours
Statut : Essai gratuit
Coursera
Optimizing Spark and Cloud Data Storage for Analytics
Cours
Statut : Essai gratuit
Coursera
Spark, Skew & Speed: Pipeline Performance Engineering
Spécialisation

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

Dans cette formation, l'optimisation des performances de Spark consiste à analyser le fonctionnement réel des tâches Spark et à apporter des modifications ciblées afin d'améliorer leur efficacité. L'objectif est d'identifier les goulots d'étranglement à partir du comportement d'exécution, puis d'améliorer des aspects tels que la distribution des données, la gestion du shuffle, les jointures, la mise en cache et les paramètres de ressources.

On recours à l'optimisation des performances de Spark lorsqu'un job est plus lent que prévu, présente une activité de « shuffle » intense ou affiche des durées d'exécution inégales des tâches au sein du cluster. Dans cette formation, cette démarche est abordée comme une méthode reproductible permettant de diagnostiquer ces schémas et de choisir les modifications susceptibles d'améliorer le débit et l'utilisation des ressources.

L'optimisation des performances de Spark intervient généralement une fois qu'un job ou un pipeline fonctionne correctement et que vous avez besoin de comprendre son comportement lors de l'exécution. Elle s'inscrit dans la phase de « développement et amélioration », au cours de laquelle vous examinez l'exécution, ajustez la structure des données ou les ressources, et vérifiez que la charge de travail s'exécute plus efficacement.

Le développement général de Spark consiste à écrire une logique qui produit le résultat escompté, tandis que l'optimisation des performances de Spark porte sur la manière dont cette même logique est exécutée à travers les jobs, les étapes, les tâches, les partitions et les exécuteurs. Ce cours met l'accent sur les données d'exécution et l'optimisation ciblée, plutôt que de se contenter d'un code qui n'est correct que sur le plan fonctionnel.

Une connaissance de base de Python et des DataFrames de Spark est utile, et une bonne maîtrise de JSON et de SQL vous permettra de suivre plus facilement le cours. Il s'agit d'un cours de niveau intermédiaire qui part du principe que vous savez déjà utiliser Spark à un niveau élémentaire et que vous souhaitez améliorer vos compétences en matière de diagnostic et d'optimisation de l'exécution des tâches.

Cette formation est axée sur Apache Spark, et plus particulièrement sur l'interface utilisateur Spark UI, qui permet d'analyser le comportement des tâches. Les principales méthodes abordées sont le diagnostic basé sur les métriques et l'optimisation ciblée de la répartition des données et de la configuration des ressources.

Vous vous exercerez à analyser les indicateurs relatifs aux tâches, aux étapes, aux opérations et aux exécuteurs, à identifier les goulots d’étranglement tels que les asymétries de données ou les schémas de réorganisation coûteux, et à déterminer les optimisations à mettre en œuvre. Vous travaillerez également à l'équilibrage des partitions, au choix des stratégies de jointure ou de mise en cache, au réglage des paramètres des exécuteurs et du parallélisme, ainsi qu'à la vérification de l'impact de ces modifications sur le débit et leur conformité aux objectifs du SLA.