Concevoir des architectures temps réel avec Spark et Kafka

Ce cours fait partie de plusieurs programmes.

Instructeurs : Soheil Haddadi

Inclus avec En savoir plus

Demander à Coursera

3 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

4 heures à compléter

Planning flexible

Apprenez à votre propre rythme

3 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

4 heures à compléter

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Étudier les principes fondamentaux des données en temps réel et la manière dont Kafka et Spark prennent en charge les architectures de streaming.
Créez des pipelines en temps réel en reliant des sujets Kafka à Spark Structured Streaming.
Améliorer et déployer des systèmes de streaming grâce à la surveillance, à la tolérance aux pannes et à l'optimisation.

Compétences que vous acquerrez

Catégorie : Transformation des données
Catégorie : Architecture des systèmes
Catégorie : Déploiement des applications
Catégorie : Architecture et construction
Catégorie : Données en temps réel
Catégorie : Pipelines de données
Catégorie : Traitement des données
Catégorie : Informatique distribuée
Catégorie : Programmation événementielle
Catégorie : Évolutivité
Catégorie : Gestion des performances
Catégorie : Optimisation des performances
Catégorie : Architecture des logiciels

Outils que vous découvrirez

Catégorie : Apache Spark
Catégorie : Apache Kafka
Catégorie : Systèmes d'exploitation en temps réel

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

février 2026

Évaluations

1 devoir

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de

Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 3 modules dans ce cours

"Design Real-Time Architectures with Apache Spark & Kafka" est un cours de niveau intermédiaire conçu pour les apprenants visant à construire des systèmes de streaming modernes et évolutifs. Le cours propose une introduction complète à la conception et à la mise en œuvre de pipelines de données en temps réel, à travers des leçons engageantes et basées sur des scénarios. Les participants explorent les fondements des concepts de streaming, les modèles pilotés par les événements et les exigences uniques du traitement à faible latence. Ils acquièrent une expérience pratique en travaillant avec Apache Kafka pour l'ingestion d'événements et Apache Spark Structured Streaming pour le calcul en temps réel, apprenant à transformer les flux bruts en informations exploitables. Le programme met l'accent sur la conception de pipelines fiables, couvrant la tolérance aux pannes, les points de contrôle et le réglage des performances pour s'assurer que les systèmes peuvent fonctionner à l'échelle. Grâce à des exercices pratiques, des dialogues guidés et des scénarios de données financières réelles, les apprenants acquièrent la confiance nécessaire pour architecturer, optimiser et déployer des solutions de streaming prêtes à la production. À la fin du cours, ils sont équipés des compétences techniques et stratégiques nécessaires pour exceller dans les environnements en temps réel axés sur les données d'aujourd'hui. Les apprenants doivent connaître Python ou Scala de base, être à l'aise avec la ligne de commande, comprendre les systèmes distribués à un niveau élevé et avoir une simple familiarité d'introduction avec Kafka et Spark. Ce cours est idéal pour les ingénieurs de données en herbe, les analystes ou les scientifiques de données qui se tournent vers les systèmes en temps réel, et les ingénieurs logiciels qui explorent l'architecture axée sur l'événement. Il convient également à toute personne travaillant avec des données à grande échelle ou des pipelines financiers et d'IA/ML qui souhaite comprendre comment les données en temps réel alimentent les systèmes modernes. À la fin du cours, ils sont équipés des compétences techniques et stratégiques nécessaires pour exceller dans les environnements en temps réel axés sur les données d'aujourd'hui.

Ce module présente les principes fondamentaux qui sous-tendent les systèmes de données en temps réel et explique en quoi ils diffèrent du traitement par lots traditionnel. Les apprenants explorent des concepts clés tels que la conception orientée événements, les flux de travail en streaming, ainsi que les rôles joués par Kafka et Spark dans un écosystème de données moderne. À l'issue de ce module, les apprenants maîtrisent les composants fondamentaux nécessaires à la mise en place d'architectures de streaming évolutives et à faible latence.

Inclus

4 vidéos2 lectures1 évaluation par les pairs

4 vidéosTotal 18 minutes

Bienvenue dans le cours « Architectures en temps réel avec Apache Spark et Kafka »2 minutes
Composants clés : Kafka, Spark et les outils de l'écosystème de soutien5 minutes
Modèles pilotés par les événements et principes de conception de la diffusion en continu5 minutes
Composants clés : Kafka, Spark et les outils de l'écosystème de soutien6 minutes

2 lecturesTotal 10 minutes

Bienvenue au cours : Aperçu du cours5 minutes
Données en continu, traitement des flux et analyse en temps réel5 minutes

1 évaluation par les pairsTotal 20 minutes

Apprentissage pratique : Cartographie d'une architecture en temps réel pour la surveillance des transactions en direct20 minutes

Dans ce module, les apprenants se plongent dans la mise en œuvre pratique de pipelines de streaming à l'aide de Kafka et de Spark Structured Streaming. Ils conçoivent des sujets Kafka, configurent des producteurs et des consommateurs, et connectent Spark pour traiter les flux de données entrants. Le module met l'accent sur les transformations, le traitement par fenêtres et les opérations avec état, qui sont essentiels à la création de pipelines fonctionnels adaptés aux situations réelles.

Inclus

3 vidéos1 lecture1 évaluation par les pairs

3 vidéosTotal 20 minutes

Conception des sujets, des producteurs et des consommateurs Kafka5 minutes
Connexion de Spark Structured Streaming à Kafka7 minutes
Transformations, fenêtres et traitement de flux avec état8 minutes

1 lectureTotal 5 minutes

Conception de sujets Kafka et de flux d'événements efficaces5 minutes

1 évaluation par les pairsTotal 20 minutes

Apprentissage pratique : Construire un pipeline de flux pour des alertes de transactions en temps réel20 minutes

Ce module est consacré à la préparation des systèmes en temps réel pour les environnements de production. Les apprenants explorent la tolérance aux pannes, les stratégies d'évolutivité et l'optimisation des performances pour Kafka et Spark. Ils apprennent également à surveiller les charges de travail en streaming, à mettre en place des points de contrôle et à garantir la fiabilité. Le module se termine par la présentation des meilleures pratiques en matière de déploiement et de maintenance d'architectures en temps réel robustes et adaptées aux entreprises.

Inclus

4 vidéos1 lecture1 devoir2 évaluations par les pairs

4 vidéosTotal 21 minutes

Garantir la fiabilité grâce aux points de contrôle et à la tolérance aux pannes5 minutes
Optimisation des performances de Kafka et Spark pour les charges de travail en temps réel5 minutes
Déploiement, surveillance et gestion des pipelines de streaming8 minutes
Synthèse du cours2 minutes

1 lectureTotal 5 minutes

10× les performances des pipelines : optimisation de Kafka et Spark en pratique5 minutes

1 devoirTotal 20 minutes

Concevoir des architectures temps réel avec Spark et Kafka20 minutes

2 évaluations par les pairsTotal 80 minutes

Apprentissage pratique : optimisation et surveillance d'un système de streaming prêt pour la production20 minutes
Projet : Système d'alerte en temps réel pour la détection du blanchiment d'argent60 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Soheil Haddadi

Coursera

6 Cours6 126 apprenants

Offert par

Coursera

En savoir plus sur Apprentissage automatique

Statut : Essai gratuit
Coursera
Real-Time, Real Fast: Kafka & Spark for Data Engineers
Spécialisation
Statut : Essai gratuit
EDUCBA
Master Real-Time Streaming with Kafka & Spark
Cours
Statut : Essai gratuit
Coursera
Process Real-Time Data with Spark Streams
Cours
Statut : Essai gratuit
Coursera
Build Real-Time Dashboards with Spark
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Débloquez l'accès à plus de 10 000 cours grâce à un abonnement
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez les 4 700 entreprises internationales qui ont choisi Coursera for Business.

Foire Aux Questions

Dans ce cours, un pipeline de streaming en temps réel désigne un flux connecté qui capte les événements au fur et à mesure de leur arrivée, les traite en continu et génère des résultats mis à jour sans attendre l'exécution d'un traitement par lots planifié. L'accent est mis sur la conception de ce flux afin qu'il reste à faible latence, évolutif et fiable à mesure que les données continuent de circuler.

On utilise ce type de pipeline lorsque la valeur des données dépend de leur traitement en temps réel plutôt que bien plus tard. Le cours l'aborde dans le contexte des flux d'événements en continu, où le traitement en temps opportun, l'analyse continue et les résultats immédiats sont essentiels.

Un pipeline de streaming se situe entre les sources d'événements et les systèmes qui exploitent les résultats traités, transformant le flux d'événements bruts en sorties structurées et continues. Dans ce cours, il est considéré comme la couche intermédiaire reproductible qui relie l'ingestion, la transformation et la surveillance opérationnelle.

Un pipeline en continu traite les événements de manière continue, tandis que le traitement par lots collecte d'abord les données avant de les traiter ultérieurement selon un calendrier défini. Ce cours s'appuie sur cette différence pour expliquer pourquoi le traitement en continu est mieux adapté aux tâches nécessitant une faible latence, mais aussi pourquoi il requiert une attention particulière à l'état du système, aux données en retard et à la tolérance aux pannes.

Avant de commencer, il est utile d'avoir des connaissances de base en Python ou en Scala, d'être à l'aise avec la ligne de commande et d'avoir une compréhension générale des systèmes distribués. Ce cours suppose également une connaissance élémentaire de Kafka et de Spark, plutôt qu'une expérience approfondie dans le développement de systèmes de streaming.

Cette formation est axée sur Apache Kafka pour la collecte d'événements et sur Apache Spark Structured Streaming pour le traitement en continu. Elle présente également la conception orientée événements et les pratiques en matière de fiabilité, telles que la création de points de contrôle et la surveillance.

Vous vous entraînez à concevoir des sujets Kafka et des flux d'événements, à connecter des flux en direct à Spark, ainsi qu'à appliquer des transformations, des fenêtres de traitement et un traitement avec état aux données entrantes. Vous travaillez également sur la mise en place de points de contrôle, la surveillance et l'optimisation afin que le pipeline puisse fonctionner de manière fiable en temps réel.