Eliminez les goulets d'étranglement au niveau des données : Optimiser les performances de Spark

Obtenez l'une de nos meilleures offres avec Coursera Plus pour 199 $ (habituellement 399 $). Économisez maintenant.

Eliminez les goulets d'étranglement au niveau des données : Optimiser les performances de Spark

Ce cours fait partie de plusieurs programmes.

Instructeur : Hurix Digital

Inclus avec

2 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Débutant

Expérience recommandée

2 heures à compléter

Planning flexible

Apprenez à votre propre rythme

2 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Débutant

Expérience recommandée

2 heures à compléter

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Les goulots d'étranglement en termes de performances dans les systèmes distribués proviennent souvent d'une répartition inégale des données plutôt que d'un manque de ressources de calcul.
L'analyse visuelle du plan d'exécution est essentielle pour identifier les étapes spécifiques où se produisent des déséquilibres dans le traitement des données.
Le choix proactif d'une stratégie de partitionnement permet d'éviter la dégradation des performances plus efficacement que l'optimisation réactive
La configuration « shuffle.partitions » de Spark et les modèles de jointure par diffusion constituent des outils fondamentaux pour une optimisation durable des pipelines.

Compétences que vous acquerrez

Catégorie : Pipelines de données
Catégorie : Traitement des données
Catégorie : Informatique distribuée
Catégorie : Analyse
Catégorie : Évolutivité
Catégorie : Mise au point
Catégorie : Analyse des performances
Catégorie : Débogage
Catégorie : Configuration du système
Catégorie : Optimisation des performances

Outils que vous découvrirez

Catégorie : Apache Spark

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

février 2026

Évaluations

4 affectations¹

Noté par l'IA voir l'avis de non-responsabilité

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de

Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 2 modules dans ce cours

Résoudre les goulots d'étranglement liés aux données : optimiser les performances de Spark

Saviez-vous qu'un réarrangement inefficace des données peut ralentir les tâches Spark de plus de 70 % ? Il est essentiel de savoir comment détecter et résoudre ces goulots d'étranglement pour atteindre des performances optimales dans les systèmes de données distribués. Cette formation courte a été conçue pour aider les professionnels du secteur à optimiser les performances des pipelines de données et à éliminer les goulots d’étranglement de traitement dans les environnements Spark distribués. À l’issue de cette formation, vous serez capable d’analyser les plans d’exécution Spark, d’identifier les causes du déséquilibre des données et des inefficacités de réorganisation, et d’appliquer des stratégies d’optimisation — des compétences qui améliorent la vitesse de traitement, l’évolutivité et l’efficacité globale du flux de travail des données. À l’issue de ce cours de 3 heures, vous serez capable de : Analyser les plans d’exécution distribués afin de résoudre les goulots d’étranglement de performances causés par le shuffle et le déséquilibre des données. Cette formation se distingue par le fait qu’elle allie le débogage pratique de Spark à des techniques d’optimisation concrètes, vous offrant ainsi une expérience pratique dans le diagnostic des problèmes de performances en environnement distribué et le réglage fin des opérations sur des volumes de données à grande échelle. Pour réussir ce projet, vous devez disposer des prérequis suivants : Connaissances de base sur Spark Notions fondamentales de SQL Compréhension des principes du calcul distribué Expérience en traitement des données

Les apprenants acquerront les compétences de base nécessaires à l'analyse des plans d'exécution distribués afin d'identifier les goulots d'étranglement liés au « data shuffle » et aux schémas de skew dans les applications Spark.

Inclus

3 vidéos3 lectures1 devoir1 laboratoire non noté

3 vidéosTotal 14 minutes

Pourquoi l'analyse des performances permet aux équipes chargées des données d'éviter les catastrophes au niveau des pipelines3 minutes
Comprendre l'architecture d'exécution distribuée de Spark6 minutes
Interprétation des mesures d'exécution visuelles et des indicateurs de performance6 minutes

3 lecturesTotal 22 minutes

Mélange et déséquilibre des données : les facteurs cachés qui nuisent aux performances8 minutes
Naviguer dans l'interface de suivi d'exécution de Spark7 minutes
Identification des schémas de goulots d'étranglement dans les indicateurs d'exécution des tâches7 minutes

1 devoirTotal 3 minutes

Évaluation des connaissances : Principes fondamentaux de l'analyse des plans d'exécution3 minutes

1 laboratoire non notéTotal 20 minutes

Identifier les goulots d'étranglement en matière de performances grâce à l'analyse du plan d'exécution20 minutes

Les participants mettront en œuvre des stratégies d'optimisation avancées afin de résoudre les goulots d'étranglement identifiés en matière de performances, grâce au réglage des partitions, aux jointures de diffusion et à des techniques d'optimisation de la configuration.

Inclus

1 vidéo1 lecture3 devoirs

1 vidéoTotal 7 minutes

Optimisation de la configuration : régler Spark pour des performances maximales7 minutes

1 lectureTotal 10 minutes

Stratégies de partitionnement et techniques d'optimisation des jointures par diffusion10 minutes

3 devoirsTotal 30 minutes

Évaluation finale : analyse approfondie des goulots d'étranglement en matière de performances et mise en œuvre de solutions12 minutes
Optimisation des performances dans des scénarios concrets15 minutes
Bilan des connaissances : stratégies d'optimisation des performances3 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Hurix Digital

454 Cours63 088 apprenants

Offert par

Coursera

En savoir plus sur Analyse des données

Coursera
Optimize Spark Performance & Throughput
Cours
Statut : Essai gratuit
Catégorie : Crédit proposé
Coursera
Optimizing Spark and Cloud Data Storage for Analytics
Cours
Statut : Essai gratuit
Catégorie : Crédit proposé
Coursera
Optimize Spark Performance: Analyze & Accelerate
Cours
Statut : Essai gratuit
Catégorie : Crédit proposé
Coursera
Spark, Skew & Speed: Pipeline Performance Engineering
Spécialisation
Statut : Essai gratuit
Catégorie : Crédit proposé

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.

Plus de questions

Visitez le Centre d'Aide pour les Étudiants

Aide financière disponible,

¹ Certains travaux de ce cours sont notés par l'IA. Pour ces travaux, vos Données internes seront utilisées conformément à Notification de confidentialité de Coursera.