Can I take the course for free?

No, you cannot take this course for free. When you enroll in the course, you get access to all of the courses in the Specialization, and you earn a certificate when you complete the work. If you cannot afford the fee, you can apply for financial aid.

Will I earn university credit for completing the Specialization?

This Specialization doesn't carry university credit, but some universities may choose to accept Specialization Certificates for credit. Check with your institution to learn more.

Spécialisation "Real-Time, Real Fast: Kafka & Spark for Data Engineers"

Real-Time Kafka & Spark Data Engineering.

Build fault-tolerant streaming pipelines processing millions of events with Kafka & Spark.

Instructeurs : Caio Avelino

Inclus avec En savoir plus

Demander à Coursera

Série de 12 cours

Approfondissez votre connaissance d’un sujet

niveau Intermédiaire

Expérience recommandée

4 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

Série de 12 cours

Approfondissez votre connaissance d’un sujet

niveau Intermédiaire

Expérience recommandée

4 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Design and optimize Kafka clusters for high throughput, low latency, and fault tolerance in production environments
Build end-to-end streaming pipelines with Spark Structured Streaming, exactly-once semantics, and schema evolution
Implement real-time dashboards, orchestration, and disaster recovery for enterprise streaming architectures

Compétences que vous acquerrez

Catégorie : Data Pipelines
Catégorie : System Monitoring
Catégorie : Data Integrity
Catégorie : Scalability
Catégorie : Data Architecture
Catégorie : Data Governance
Catégorie : Disaster Recovery
Catégorie : Performance Tuning
Catégorie : Event-Driven Programming
Catégorie : Data Processing
Catégorie : Data Transformation
Catégorie : Real Time Data

Outils que vous découvrirez

Catégorie : Docker (Software)
Catégorie : Apache Kafka
Catégorie : Apache Spark
Catégorie : Prometheus (Software)
Catégorie : Fraud detection
Catégorie : Power BI
Catégorie : PySpark
Catégorie : Grafana

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Améliorez votre expertise en la matière

Acquérez des compétences recherchées auprès d’universités et d’experts du secteur
Maîtrisez un sujet ou un outil avec des projets pratiques
Développez une compréhension approfondie de concepts clés
Obtenez un certificat professionnel auprès de Coursera

Spécialisation - série de 12 cours

Learn the complete lifecycle of real-time data engineering with Apache Kafka and Spark through hands-on projects that mirror production challenges at companies like Netflix, LinkedIn, and Uber. This comprehensive specialization teaches you to design high-availability streaming architectures, optimize Kafka clusters for millions of events per second, implement exactly-once processing semantics, manage schema evolution without downtime, and build real-time dashboards that power instant business decisions. Starting with Kafka performance tuning and progressing through Spark Structured Streaming, CDC pipelines, and production orchestration, you'll gain the skills to architect, implement, and operate enterprise-grade streaming systems. Each course includes practical labs where you'll configure distributed systems, diagnose performance bottlenecks, handle failures gracefully, and deploy pipelines that transform high-velocity data into immediate business value.

Projet d'apprentissage appliqué

Throughout this specialization, you'll complete hands-on projects that simulate real-world streaming challenges: configure Kafka clusters for high availability, implement exactly-once processing pipelines, build CDC systems with schema evolution, create real-time fraud detection engines, develop live operational dashboards, and design multi-region recovery strategies. Each project progresses from foundational setup through production deployment, using Docker environments and cloud-ready architectures that you can immediately apply in professional settings.

Optimize Kafka for Speed & Availability

COURS 1, 4 heures

Ce que vous apprendrez

Configure Kafka topics with appropriate replication factors, partition counts, and durability settings to ensure high availability.
Diagnose performance bottlenecks using consumer lag metrics, broker health indicators, and throughput analysis.
Optimize producer and consumer configurations including batching, compression, and parallelism to maximize throughput while meeting latency SLAs.

Compétences que vous acquerrez

Catégorie : Performance Tuning

Catégorie : Apache Kafka

Catégorie : Content Strategy

Catégorie : Command-Line Interface

Catégorie : Process Optimization

Catégorie : Data Loss Prevention

Catégorie : Grafana

Catégorie : Data Integrity

Catégorie : Scalability

Catégorie : Prometheus (Software)

Catégorie : Real Time Data

Catégorie : System Monitoring

Catégorie : Distributed Computing

Stream & Optimize Real-Time Data Flows

COURS 2, 4 heures

Ce que vous apprendrez

Evaluate log configurations to recommend tiered storage, retention policies, and access controls.
Design stream processing topologies that implement join patterns, aggregation windows, and state management for real-time data transformation.
Optimize real-time data flows by analyzing throughput bottlenecks, partition strategies, and resource allocation to meet SLAs within budget limits.

Compétences que vous acquerrez

Catégorie : Payment Card Industry (PCI) Data Security Standards

Catégorie : Apache Kafka

Catégorie : Real Time Data

Catégorie : Computer Architecture

Catégorie : System Configuration

Catégorie : Data Pipelines

Catégorie : Data Governance

Catégorie : Data Storage

Catégorie : Multi-Tenant Cloud Environments

Catégorie : Scalability

Catégorie : Performance Tuning

Catégorie : Data Architecture

Catégorie : Performance Stress Testing

Catégorie : Cost Management

Catégorie : Governance

Catégorie : Compliance Management

Catégorie : Apache

Manage Schema Evolution in Real‑Time Data

COURS 3, 4 heures

Ce que vous apprendrez

Explain core patterns for schema evolution (backward/forward/full compatibility, additive vs. breaking changes) and select the right strategy.
Implement versioned event/data contracts with Avro or Protobuf using a schema registry and enforce compatibility rules in CI/CD.
Orchestrate real‑time rollout plans across producers, consumers, and storage (Kafka topics, CDC sinks, warehouses) with monitoring and rollback.

Compétences que vous acquerrez

Catégorie : Real Time Data

Catégorie : Data Warehousing

Catégorie : Data Pipelines

Catégorie : Continuous Monitoring

Catégorie : CI/CD

Catégorie : System Monitoring

Catégorie : Automation Engineering

Catégorie : Operational Databases

Catégorie : Automation

Catégorie : Apache Kafka

Catégorie : Data Architecture

Catégorie : Continuous Deployment

Catégorie : Warehouse Management

Catégorie : Data Validation

Catégorie : Continuous Integration

Catégorie : Data Modeling

Ensure Consistency in Streaming Pipelines

COURS 4, 4 heures

Ce que vous apprendrez

Stream pipeline design by analyzing failure scenarios and business requirements to prevent data loss or duplication.
Implement exactly-once processing semantics across producer, processor, and sink layers using transactions, checkpoints, and idempotent operations.
Evaluate watermarking and windowing configurations to optimize the tradeoff between latency and data completeness.

Compétences que vous acquerrez

Catégorie : Apache Spark

Catégorie : Apache Kafka

Catégorie : Apache

Catégorie : Performance Tuning

Catégorie : Data Loss Prevention

Catégorie : Data Architecture

Catégorie : Real Time Data

Catégorie : Transaction Processing

Catégorie : Data Pipelines

Catégorie : System Design and Implementation

Catégorie : Integration Testing

Catégorie : Project Implementation

Catégorie : Data Validation

Catégorie : Production Management

Catégorie : Business Metrics

Catégorie : Analysis

Catégorie : Verification And Validation

Catégorie : Decision Intelligence

Catégorie : Data Integrity

Catégorie : Scenario Testing

Process Real-Time Data with Spark Streams

COURS 5, 6 heures

Ce que vous apprendrez

Explain the execution model of Spark Structured Streaming and build a simple pipeline from a file source to a console sink.
Develop streaming pipelines that integrate with Kafka, apply event-time processing with watermarks, and write reliable outputs to Delta Lake.
Build an end-to-end Spark streaming pipeline that can be deployed in real-world production environments.

Compétences que vous acquerrez

Catégorie : Real Time Data

Catégorie : Apache Spark

Catégorie : Data Processing

Catégorie : Event Management

Catégorie : Apache Kafka

Catégorie : JSON

Catégorie : Data Pipelines

Catégorie : Data Lakes

Catégorie : Scalability

Catégorie : Event Monitoring

Catégorie : Application Deployment

Catégorie : PySpark

Catégorie : Data Integration

Catégorie : Data Transformation

Catégorie : Data-Driven Decision-Making

Catégorie : Live Streaming

Optimize Spark Performance & Throughput

COURS 6, 4 heures

Ce que vous apprendrez

Inspect Spark UI and metrics (task duration, shuffle I/O, executor CPU/mem) to find bottlenecks and recommend actionable optimizations.
Apply partitioning and skew mitigation (salting/custom partitioner) & reduce shuffle (broadcast joins, avoid groupByKey, AQE) to improve parallelism.
Configure executors, cores, memory, dynamic allocation and parallelism/caching settings to maximize throughput while meeting defined SLA targets.

Compétences que vous acquerrez

Catégorie : Performance Tuning

Catégorie : Apache Spark

Catégorie : Memory Management

Catégorie : Job Analysis

Catégorie : Process Optimization

Catégorie : Performance Analysis

Catégorie : Service Level

Catégorie : System Configuration

Catégorie : PySpark

Catégorie : Resource Allocation

Process & Analyze Real-Time Data Fast

COURS 7, 5 heures

Ce que vous apprendrez

Architect a streaming data solution by differentiating between batch, micro-batch, and streaming patterns to solve a specific business problem.
Develop real-time analytics pipelines using window functions and watermarking to aggregate and analyze streaming data.
Optimize a production streaming application by diagnosing performance bottlenecks like data skew and implementing mitigation techniques.

Compétences que vous acquerrez

Catégorie : Real Time Data

Catégorie : Fraud detection

Catégorie : Apache Spark

Catégorie : Data Processing

Catégorie : Trend Analysis

Catégorie : PySpark

Catégorie : Dashboard Creation

Catégorie : Performance Tuning

Catégorie : Internet Of Things

Catégorie : Performance Analysis

Catégorie : Dashboard

Catégorie : Big Data

Catégorie : Data Analysis

Catégorie : Data Pipelines

Catégorie : Databricks

Catégorie : Performance Improvement

Build Real-Time Dashboards with Spark

COURS 8, 5 heures

Ce que vous apprendrez

Explain Spark’s streaming model and produce a dashboard-ready table from a simple file source.
Construct a real-time pipeline that ingests from Kafka, processes with Spark, and stores result in Delta using event-time windows and watermarks.
Operate a production-oriented dashboard with refresh policies, monitoring, and failure recovery.

Compétences que vous acquerrez

Catégorie : Apache Kafka

Catégorie : Real Time Data

Catégorie : Apache Spark

Catégorie : Dashboard Creation

Catégorie : Business Intelligence

Catégorie : Business Metrics

Catégorie : Data Persistence

Catégorie : Data Lakes

Catégorie : Continuous Monitoring

Catégorie : Dashboard

Catégorie : JSON

Catégorie : PySpark

Catégorie : Data Pipelines

Transform and Validate Real-Time Data Fast

COURS 9, 5 heures

Ce que vous apprendrez

Transform nested and streaming data into analytics-ready tables using programming tools and platforms.
Implement automated data quality checks and integrate these checks into CI/CD pipelines to enforce quality gates.
Build and manage scalable real-time analytics pipelines that block low-quality data and connect curated datasets to Power BI dashboards.

Compétences que vous acquerrez

Catégorie : Data Validation

Catégorie : PySpark

Catégorie : Data Quality

Catégorie : Data Transformation

Catégorie : Power BI

Catégorie : Live Streaming

Catégorie : Data Integration

Catégorie : Data Pipelines

Catégorie : Data Processing

Catégorie : CI/CD

Catégorie : Dashboard Creation

Catégorie : Performance Tuning

Catégorie : Business Intelligence

Catégorie : Data Governance

Catégorie : Dashboard

Catégorie : Data Integrity

Catégorie : Real Time Data

Orchestrate & Recover Real-Time Data Pipelines

COURS 10, 4 heures

Ce que vous apprendrez

Build and schedule streaming and batch-adjacent workflows using a modern orchestrator, such as Airflow or Prefect.
IImplement reliability patterns like idempotence, checkpointing, DLQs, and backfills for fault-tolerant and exactly-once-ish processing.
Design multi-region recovery strategies (mirroring/replication) and run playbooks to restore pipelines after partial or regional failures.

Compétences que vous acquerrez

Catégorie : Real Time Data

Catégorie : Apache Spark

Catégorie : Apache Airflow

Catégorie : Apache Kafka

Catégorie : Disaster Recovery

Catégorie : Workflow Management

Catégorie : Data Infrastructure

Catégorie : Data Processing

Catégorie : Data Integrity

Catégorie : Site Reliability Engineering

Catégorie : Dataflow

Catégorie : Data Pipelines

Stream & Unify Data Schemas with CDC

COURS 11, 5 heures

Ce que vous apprendrez

Explain CDC fundamentals (binlog/WAL) and schema evolution strategies.
Configure a Schema Registry pipeline locally using Debezium and Kafka.
Use streaming SQL (Flink/ksqlDB) to map, cast, and merge divergent schemas into a canonical model.

Compétences que vous acquerrez

Catégorie : Data Pipelines

Catégorie : Data Validation

Catégorie : Real Time Data

Catégorie : Data Integrity

Catégorie : Data Mapping

Catégorie : Apache Kafka

Catégorie : Continuous Integration

Catégorie : Data Modeling

Catégorie : SQL

Catégorie : Continuous Monitoring

Catégorie : PostgreSQL

Catégorie : Data Transformation

Catégorie : Data Store

Catégorie : Data Capture

Catégorie : Cloud Deployment

Catégorie : Schematic Diagrams

Catégorie : Data Storage Technologies

Design Real-Time Architectures with Spark & Kafka

COURS 12, 4 heures

Ce que vous apprendrez

Examine core real-time data principles and how Kafka and Spark support streaming architectures.
Create real-time pipelines by connecting Kafka topics with Spark Structured Streaming.
Improve and deploy streaming systems using monitoring, fault tolerance, and tuning.

Compétences que vous acquerrez

Catégorie : Apache Spark

Catégorie : Apache Kafka

Catégorie : Real Time Data

Catégorie : Data Transformation

Catégorie : Systems Architecture

Catégorie : Application Deployment

Catégorie : Real-Time Operating Systems

Catégorie : Architecture and Construction

Catégorie : Data Pipelines

Catégorie : Data Processing

Catégorie : Distributed Computing

Catégorie : Event-Driven Programming

Catégorie : Scalability

Catégorie : Performance Management

Catégorie : Performance Tuning

Catégorie : Software Architecture

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Caio Avelino

9 Cours9 033 apprenants

Jairo Sanchez

5 Cours9 157 apprenants

Starweaver

Coursera

573 Cours1 174 777 apprenants

Offert par

Coursera

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Débloquez l'accès à plus de 10 000 cours grâce à un abonnement
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez les 4 700 entreprises internationales qui ont choisi Coursera for Business.

Foire Aux Questions

This course is completely online, so there’s no need to show up to a classroom in person. You can access your lectures, readings and assignments anytime and anywhere via the web or your mobile device.

Yes! To get started, click the course card that interests you and enroll. You can enroll and complete the course to earn a shareable certificate. When you subscribe to a course that is part of a Specialization, you’re automatically subscribed to the full Specialization. Visit your learner dashboard to track your progress.

Yes. In select learning programs, you can apply for financial aid or a scholarship if you can’t afford the enrollment fee. If fin aid or scholarship is available for your learning program selection, you’ll find a link to apply on the description page.

Plus de questions

Visitez le Centre d'Aide pour les Étudiants

Aide financière disponible,

Spécialisation "Real-Time, Real Fast: Kafka & Spark for Data Engineers"

Spécialisation "Real-Time, Real Fast: Kafka & Spark for Data Engineers"

Ce que vous apprendrez

Compétences que vous acquerrez

Outils que vous découvrirez

Détails à connaître

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Améliorez votre expertise en la matière

Spécialisation - série de 12 cours

Ce que vous apprendrez

Compétences que vous acquerrez

Ce que vous apprendrez

Compétences que vous acquerrez

Ce que vous apprendrez

Compétences que vous acquerrez

Ce que vous apprendrez

Compétences que vous acquerrez

Ce que vous apprendrez

Compétences que vous acquerrez

Ce que vous apprendrez

Compétences que vous acquerrez

Ce que vous apprendrez

Compétences que vous acquerrez

Ce que vous apprendrez

Compétences que vous acquerrez

Ce que vous apprendrez

Compétences que vous acquerrez

Ce que vous apprendrez

Compétences que vous acquerrez

Ce que vous apprendrez

Compétences que vous acquerrez

Ce que vous apprendrez

Compétences que vous acquerrez

Obtenez un certificat professionnel

Instructeurs

Offert par

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.

Foire Aux Questions

Is this course really 100% online? Do I need to attend any classes in person?

Can I just enroll in a single course?

Is financial aid available?

Plus de questions