Dans les environnements d’ingénierie des données à grande échelle, les problèmes de performances tels que la lenteur des transformations, le nombre excessif d’opérations de shuffle et le déséquilibre des charges de travail peuvent avoir un impact sur l’analyse, le reporting et le respect des engagements SLA. Cette formation vous apprend à analyser, diagnostiquer et optimiser les applications Spark afin qu’elles s’exécutent plus rapidement, plus efficacement et de manière plus fiable. Au cours de cette formation, vous commencerez par acquérir les bases de l’exécution des tâches Spark, notamment en découvrant comment les étapes, les tâches, les opérations de shuffle et les plans d’exécution permettent d’identifier les goulots d’étranglement. Vous explorerez les outils de surveillance intégrés à Spark pour interpréter le comportement des tâches. À partir de là, vous appliquerez des techniques d’optimisation pratiques, notamment l’amélioration du partitionnement des données, l’atténuation de l’asymétrie des données, l’optimisation des jointures, la configuration de stratégies de mise en cache et le choix de formats de fichiers efficaces. Vous apprendrez également à régler les exécuteurs, la mémoire, les COREs et l’allocation dynamique afin d’équilibrer les coûts et les performances entre les charges de travail.

Optimiser les performances et le débit de Spark
Obtenez l'une de nos meilleures offres avec Coursera Plus pour 199 $ (habituellement 399 $). Économisez maintenant.

Optimiser les performances et le débit de Spark
Ce cours fait partie de plusieurs programmes.

Instructeur : Merna Elzahaby
Inclus avec
Expérience recommandée
Ce que vous apprendrez
Analyser l'interface utilisateur et les indicateurs de Spark (durée des tâches, E/S de shuffle, utilisation du processeur et de la mémoire par les exécuteurs) afin d'identifier les goulots d'étranglement et de proposer des optimisations concrètes.
Appliquer des techniques de partitionnement et d'atténuation de l'asymétrie (salting/partitionneur personnalisé) et réduire le shuffle (joins par diffusion, éviter groupByKey, AQE) afin d'améliorer le parallélisme.
Configurez les paramètres relatifs aux exécuteurs, aux COREs, à la mémoire, à l'allocation dynamique et au parallélisme/mise en cache afin d'optimiser le débit tout en respectant les objectifs SLA définis.
Compétences que vous acquerrez
- Catégorie : Allocation des ressources
- Catégorie : Gestion de la mémoire
- Catégorie : Analyse de l'emploi
- Catégorie : Optimisation des processus
- Catégorie : Analyse des performances
- Catégorie : Optimisation des performances
- Catégorie : Niveau de service
- Catégorie : Configuration du système
Outils que vous découvrirez
- Catégorie : Apache Spark
- Catégorie : PySpark
Détails à connaître

Ajouter à votre profil LinkedIn
février 2026
1 devoir
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable

Il y a 3 modules dans ce cours
Obtenez un certificat professionnel
Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.
Instructeur

Offert par
En savoir plus sur Informatique en nuage
Statut : Essai gratuit
Statut : Essai gratuit
Statut : Essai gratuit
Statut : Essai gratuit
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.
Foire Aux Questions
Plus de questions
Aide financière disponible,




