Coursera

Spécialisation "Real-Time, Real Fast: Kafka & Spark for Data Engineers"

Économisez sur les compétences qui vous font briller avec 40 % de réduction sur 3 mois de Coursera Plus. Économisez maintenant

Ce spécialisation n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Coursera

Spécialisation "Real-Time, Real Fast: Kafka & Spark for Data Engineers"

Real-Time Kafka & Spark Data Engineering.

Build fault-tolerant streaming pipelines processing millions of events with Kafka & Spark.

Caio Avelino
Jairo Sanchez
Starweaver

Instructeurs : Caio Avelino

Inclus avec Coursera Plus

Approfondissez votre connaissance d’un sujet
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Approfondissez votre connaissance d’un sujet
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Design and optimize Kafka clusters for high throughput, low latency, and fault tolerance in production environments

  • Build end-to-end streaming pipelines with Spark Structured Streaming, exactly-once semantics, and schema evolution

  • Implement real-time dashboards, orchestration, and disaster recovery for enterprise streaming architectures

Compétences que vous acquerrez

  • Catégorie : Data Architecture
  • Catégorie : Data Governance
  • Catégorie : Data Integrity
  • Catégorie : Data Pipelines
  • Catégorie : Data Processing
  • Catégorie : Data Transformation
  • Catégorie : Disaster Recovery
  • Catégorie : Event-Driven Programming
  • Catégorie : Performance Tuning
  • Catégorie : Real Time Data
  • Catégorie : Scalability
  • Catégorie : System Monitoring

Outils que vous découvrirez

  • Catégorie : Apache Kafka
  • Catégorie : Apache Spark
  • Catégorie : Docker (Software)
  • Catégorie : Fraud detection
  • Catégorie : Grafana
  • Catégorie : Power BI
  • Catégorie : Prometheus (Software)
  • Catégorie : PySpark

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais
Récemment mis à jour !

janvier 2026

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Améliorez votre expertise en la matière

  • Acquérez des compétences recherchées auprès d’universités et d’experts du secteur
  • Maîtrisez un sujet ou un outil avec des projets pratiques
  • Développez une compréhension approfondie de concepts clés
  • Obtenez un certificat professionnel auprès de Coursera

Spécialisation - série de 12 cours

Optimize Kafka for Speed & Availability

Optimize Kafka for Speed & Availability

COURS 1, 4 heures

Ce que vous apprendrez

  • Configure Kafka topics with appropriate replication factors, partition counts, and durability settings to ensure high availability.

  • Diagnose performance bottlenecks using consumer lag metrics, broker health indicators, and throughput analysis.

  • Optimize producer and consumer configurations including batching, compression, and parallelism to maximize throughput while meeting latency SLAs.

Compétences que vous acquerrez

Catégorie : Apache Kafka
Catégorie : Performance Tuning
Catégorie : System Configuration
Catégorie : Data Loss Prevention
Catégorie : System Monitoring
Catégorie : Scalability
Catégorie : Process Optimization
Catégorie : Data Integrity
Catégorie : Distributed Computing
Catégorie : Command-Line Interface
Catégorie : Real Time Data
Catégorie : Content Strategy
Catégorie : Grafana
Catégorie : Prometheus (Software)
Stream & Optimize Real-Time Data Flows

Stream & Optimize Real-Time Data Flows

COURS 2, 4 heures

Ce que vous apprendrez

  • Evaluate log configurations to recommend tiered storage, retention policies, and access controls.

  • Design stream processing topologies that implement join patterns, aggregation windows, and state management for real-time data transformation.

  • Optimize real-time data flows by analyzing throughput bottlenecks, partition strategies, and resource allocation to meet SLAs within budget limits.

Compétences que vous acquerrez

Catégorie : Payment Card Industry (PCI) Data Security Standards
Catégorie : Apache Kafka
Catégorie : Real Time Data
Catégorie : Apache
Catégorie : Performance Tuning
Catégorie : Compliance Management
Catégorie : System Configuration
Catégorie : Data Storage
Catégorie : Data Architecture
Catégorie : Data Pipelines
Catégorie : Cost Management
Catégorie : Performance Stress Testing
Catégorie : Data Governance
Catégorie : Governance
Catégorie : Multi-Tenant Cloud Environments
Catégorie : Scalability
Catégorie : Computer Architecture
Manage Schema Evolution in Real‑Time Data

Manage Schema Evolution in Real‑Time Data

COURS 3, 4 heures

Ce que vous apprendrez

  • Explain core patterns for schema evolution (backward/forward/full compatibility, additive vs. breaking changes) and select the right strategy.

  • Implement versioned event/data contracts with Avro or Protobuf using a schema registry and enforce compatibility rules in CI/CD.

  • Orchestrate real‑time rollout plans across producers, consumers, and storage (Kafka topics, CDC sinks, warehouses) with monitoring and rollback.

Compétences que vous acquerrez

Catégorie : Data Pipelines
Catégorie : Data Warehousing
Catégorie : Real Time Data
Catégorie : Apache Kafka
Catégorie : CI/CD
Catégorie : Automation
Catégorie : System Monitoring
Catégorie : Operational Databases
Catégorie : Automation Engineering
Catégorie : Continuous Integration
Catégorie : Software Versioning
Catégorie : Data Validation
Catégorie : Continuous Deployment
Catégorie : Continuous Monitoring
Catégorie : Warehouse Management
Ensure Consistency in Streaming Pipelines

Ensure Consistency in Streaming Pipelines

COURS 4, 4 heures

Ce que vous apprendrez

  • Stream pipeline design by analyzing failure scenarios and business requirements to prevent data loss or duplication.

  • Implement exactly-once processing semantics across producer, processor, and sink layers using transactions, checkpoints, and idempotent operations.

  • Evaluate watermarking and windowing configurations to optimize the tradeoff between latency and data completeness.

Compétences que vous acquerrez

Catégorie : Apache Kafka
Catégorie : Apache Spark
Catégorie : Integration Testing
Catégorie : Data Integrity
Catégorie : Apache
Catégorie : Transaction Processing
Catégorie : Production Management
Catégorie : Project Implementation
Catégorie : Verification And Validation
Catégorie : Data Architecture
Catégorie : Data Pipelines
Catégorie : Scenario Testing
Catégorie : Internet Of Things
Catégorie : Real Time Data
Catégorie : Data Validation
Catégorie : Performance Tuning
Catégorie : Configuration Management
Catégorie : System Design and Implementation
Catégorie : Event Monitoring
Process Real-Time Data with Spark Streams

Process Real-Time Data with Spark Streams

COURS 5, 6 heures

Ce que vous apprendrez

  • Explain the execution model of Spark Structured Streaming and build a simple pipeline from a file source to a console sink.

  • Develop streaming pipelines that integrate with Kafka, apply event-time processing with watermarks, and write reliable outputs to Delta Lake.

  • Build an end-to-end Spark streaming pipeline that can be deployed in real-world production environments.

Compétences que vous acquerrez

Catégorie : Real Time Data
Catégorie : Apache Spark
Catégorie : Data Processing
Catégorie : Event Management
Catégorie : Data-Driven Decision-Making
Catégorie : Data Integration
Catégorie : Scalability
Catégorie : Data Pipelines
Catégorie : Data Lakes
Catégorie : Fraud detection
Catégorie : Live Streaming
Catégorie : Apache Kafka
Catégorie : PySpark
Catégorie : JSON
Catégorie : Event Monitoring
Catégorie : Data Transformation
Optimize Spark Performance & Throughput

Optimize Spark Performance & Throughput

COURS 6, 4 heures

Ce que vous apprendrez

  • Inspect Spark UI and metrics (task duration, shuffle I/O, executor CPU/mem) to find bottlenecks and recommend actionable optimizations.

  • Apply partitioning and skew mitigation (salting/custom partitioner) & reduce shuffle (broadcast joins, avoid groupByKey, AQE) to improve parallelism.

  • Configure executors, cores, memory, dynamic allocation and parallelism/caching settings to maximize throughput while meeting defined SLA targets.

Compétences que vous acquerrez

Catégorie : Apache Spark
Catégorie : Performance Tuning
Catégorie : System Configuration
Catégorie : PySpark
Catégorie : Performance Analysis
Catégorie : Memory Management
Catégorie : Service Level
Catégorie : Resource Allocation
Catégorie : Process Optimization
Catégorie : Job Analysis
Process & Analyze Real-Time Data Fast

Process & Analyze Real-Time Data Fast

COURS 7, 5 heures

Ce que vous apprendrez

  • Architect a streaming data solution by differentiating between batch, micro-batch, and streaming patterns to solve a specific business problem.

  • Develop real-time analytics pipelines using window functions and watermarking to aggregate and analyze streaming data.

  • Optimize a production streaming application by diagnosing performance bottlenecks like data skew and implementing mitigation techniques.

Compétences que vous acquerrez

Catégorie : Real Time Data
Catégorie : Apache Spark
Catégorie : Fraud detection
Catégorie : Performance Analysis
Catégorie : Dashboard Creation
Catégorie : Databricks
Catégorie : Internet Of Things
Catégorie : Data Analysis
Catégorie : Data Pipelines
Catégorie : Data Processing
Catégorie : Dashboard
Catégorie : PySpark
Catégorie : Trend Analysis
Catégorie : Big Data
Catégorie : Performance Improvement
Catégorie : Performance Tuning
Build Real-Time Dashboards with Spark

Build Real-Time Dashboards with Spark

COURS 8, 5 heures

Ce que vous apprendrez

  • Explain Spark’s streaming model and produce a dashboard-ready table from a simple file source.

  • Construct a real-time pipeline that ingests from Kafka, processes with Spark, and stores result in Delta using event-time windows and watermarks.

  • Operate a production-oriented dashboard with refresh policies, monitoring, and failure recovery.

Compétences que vous acquerrez

Catégorie : Real Time Data
Catégorie : Apache Kafka
Catégorie : Apache Spark
Catégorie : Business Metrics
Catégorie : Data Lakes
Catégorie : Data Pipelines
Catégorie : JSON
Catégorie : Data Persistence
Catégorie : PySpark
Catégorie : Continuous Monitoring
Catégorie : Dashboard Creation
Catégorie : Dashboard
Catégorie : Business Intelligence
Transform and Validate Real-Time Data Fast

Transform and Validate Real-Time Data Fast

COURS 9, 5 heures

Ce que vous apprendrez

  • Transform nested and streaming data into analytics-ready tables using programming tools and platforms.

  • Implement automated data quality checks and integrate these checks into CI/CD pipelines to enforce quality gates.

  • Build and manage scalable real-time analytics pipelines that block low-quality data and connect curated datasets to Power BI dashboards.

Compétences que vous acquerrez

Catégorie : PySpark
Catégorie : Data Quality
Catégorie : Power BI
Catégorie : Data Transformation
Catégorie : Data Validation
Catégorie : Data Governance
Catégorie : Data Integrity
Catégorie : Dashboard
Catégorie : Real Time Data
Catégorie : CI/CD
Catégorie : Data Pipelines
Catégorie : Live Streaming
Catégorie : Business Intelligence
Catégorie : Data Processing
Catégorie : Performance Tuning
Catégorie : Dashboard Creation
Orchestrate & Recover Real-Time Data Pipelines

Orchestrate & Recover Real-Time Data Pipelines

COURS 10, 4 heures

Ce que vous apprendrez

  • Build and schedule streaming and batch-adjacent workflows using a modern orchestrator, such as Airflow or Prefect.

  • IImplement reliability patterns like idempotence, checkpointing, DLQs, and backfills for fault-tolerant and exactly-once-ish processing.

  • Design multi-region recovery strategies (mirroring/replication) and run playbooks to restore pipelines after partial or regional failures.

Compétences que vous acquerrez

Catégorie : Apache Airflow
Catégorie : Apache Kafka
Catégorie : Disaster Recovery
Catégorie : Real Time Data
Catégorie : Apache Spark
Catégorie : Data Integrity
Catégorie : Dataflow
Catégorie : Data Processing
Catégorie : Data Infrastructure
Catégorie : Workflow Management
Catégorie : Site Reliability Engineering
Catégorie : Data Pipelines
Stream & Unify Data Schemas with CDC

Stream & Unify Data Schemas with CDC

COURS 11, 5 heures

Ce que vous apprendrez

  • Explain CDC fundamentals (binlog/WAL) and schema evolution strategies.

  • Configure a Schema Registry pipeline locally using Debezium and Kafka.

  • Use streaming SQL (Flink/ksqlDB) to map, cast, and merge divergent schemas into a canonical model.

Compétences que vous acquerrez

Catégorie : Data Pipelines
Catégorie : Data Validation
Catégorie : Real Time Data
Catégorie : Data Transformation
Catégorie : Data Mapping
Catégorie : Data Storage Technologies
Catégorie : Data Integrity
Catégorie : Data Modeling
Catégorie : Continuous Monitoring
Catégorie : Data Store
Catégorie : Data Capture
Catégorie : PostgreSQL
Catégorie : Apache Kafka
Catégorie : Continuous Integration
Catégorie : Cloud Deployment
Catégorie : Schematic Diagrams
Catégorie : SQL
Design Real-Time Architectures with Spark & Kafka

Design Real-Time Architectures with Spark & Kafka

COURS 12, 4 heures

Ce que vous apprendrez

  • Examine core real-time data principles and how Kafka and Spark support streaming architectures.

  • Create real-time pipelines by connecting Kafka topics with Spark Structured Streaming.

  • Improve and deploy streaming systems using monitoring, fault tolerance, and tuning.

Compétences que vous acquerrez

Catégorie : Apache Spark
Catégorie : Apache Kafka
Catégorie : Real Time Data
Catégorie : Architecture and Construction
Catégorie : Software Architecture
Catégorie : Event-Driven Programming
Catégorie : Real-Time Operating Systems
Catégorie : Performance Management
Catégorie : Data Processing
Catégorie : Application Deployment
Catégorie : Data Pipelines
Catégorie : Distributed Computing
Catégorie : Scalability
Catégorie : Systems Architecture
Catégorie : Data Transformation
Catégorie : Performance Tuning

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Caio Avelino
9 Cours8 658 apprenants
Jairo Sanchez
5 Cours8 782 apprenants
Starweaver
Coursera
560 Cours1 114 789 apprenants

Offert par

Coursera

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions