Coursera

Spezialisierung „Real-Time, Real Fast: Kafka & Spark for Data Engineers“

spezialisierung ist nicht verfügbar in Deutsch (Deutschland)

Wir übersetzen es in weitere Sprachen.
Coursera

Spezialisierung „Real-Time, Real Fast: Kafka & Spark for Data Engineers“

Real-Time Kafka & Spark Data Engineering.

Build fault-tolerant streaming pipelines processing millions of events with Kafka & Spark.

Caio Avelino
Jairo Sanchez
Starweaver

Dozenten: Caio Avelino

Bei Coursera Plus enthalten

Befassen Sie sich eingehend mit einem Thema
Stufe Mittel

Empfohlene Erfahrung

4 Wochen zu vervollständigen
unter 10 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen
Befassen Sie sich eingehend mit einem Thema
Stufe Mittel

Empfohlene Erfahrung

4 Wochen zu vervollständigen
unter 10 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

  • Design and optimize Kafka clusters for high throughput, low latency, and fault tolerance in production environments

  • Build end-to-end streaming pipelines with Spark Structured Streaming, exactly-once semantics, and schema evolution

  • Implement real-time dashboards, orchestration, and disaster recovery for enterprise streaming architectures

Kompetenzen, die Sie erwerben

  • Kategorie: Data Architecture
  • Kategorie: Data Governance
  • Kategorie: Data Integrity
  • Kategorie: Data Pipelines
  • Kategorie: Data Processing
  • Kategorie: Data Transformation
  • Kategorie: Disaster Recovery
  • Kategorie: Event-Driven Programming
  • Kategorie: Performance Tuning
  • Kategorie: Real Time Data
  • Kategorie: Scalability
  • Kategorie: System Monitoring

Werkzeuge, die Sie lernen werden

  • Kategorie: Apache Kafka
  • Kategorie: Apache Spark
  • Kategorie: Docker (Software)
  • Kategorie: Fraud detection
  • Kategorie: Grafana
  • Kategorie: Power BI
  • Kategorie: Prometheus (Software)
  • Kategorie: PySpark

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Unterrichtet in Englisch
Kürzlich aktualisiert!

Januar 2026

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

 Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse.

  • Erlernen Sie gefragte Kompetenzen von Universitäten und Branchenexperten.
  • Erlernen Sie ein Thema oder ein Tool mit echten Projekten.
  • Entwickeln Sie ein fundiertes Verständnisse der Kernkonzepte.
  • Erwerben Sie ein Karrierezertifikat von Coursera.

Spezialisierung - 12 Kursreihen

Optimize Kafka for Speed & Availability

Optimize Kafka for Speed & Availability

KURS 1, 4 Stunden

Was Sie lernen werden

  • Configure Kafka topics with appropriate replication factors, partition counts, and durability settings to ensure high availability.

  • Diagnose performance bottlenecks using consumer lag metrics, broker health indicators, and throughput analysis.

  • Optimize producer and consumer configurations including batching, compression, and parallelism to maximize throughput while meeting latency SLAs.

Kompetenzen, die Sie erwerben

Kategorie: System Configuration
Kategorie: Apache Kafka
Kategorie: Performance Tuning
Kategorie: Distributed Computing
Kategorie: Content Strategy
Kategorie: Process Optimization
Kategorie: Data Loss Prevention
Kategorie: Prometheus (Software)
Kategorie: Data Integrity
Kategorie: Real Time Data
Kategorie: System Monitoring
Kategorie: Grafana
Kategorie: Scalability
Kategorie: Command-Line Interface
Stream & Optimize Real-Time Data Flows

Stream & Optimize Real-Time Data Flows

KURS 2, 4 Stunden

Was Sie lernen werden

  • Evaluate log configurations to recommend tiered storage, retention policies, and access controls.

  • Design stream processing topologies that implement join patterns, aggregation windows, and state management for real-time data transformation.

  • Optimize real-time data flows by analyzing throughput bottlenecks, partition strategies, and resource allocation to meet SLAs within budget limits.

Kompetenzen, die Sie erwerben

Kategorie: Real Time Data
Kategorie: Apache Kafka
Kategorie: Payment Card Industry (PCI) Data Security Standards
Kategorie: Cost Management
Kategorie: Performance Tuning
Kategorie: Data Governance
Kategorie: Data Pipelines
Kategorie: Data Storage
Kategorie: Multi-Tenant Cloud Environments
Kategorie: Scalability
Kategorie: Data Architecture
Kategorie: Computer Architecture
Kategorie: Compliance Management
Kategorie: Apache
Kategorie: Performance Stress Testing
Kategorie: System Configuration
Kategorie: Governance
Manage Schema Evolution in Real‑Time Data

Manage Schema Evolution in Real‑Time Data

KURS 3, 4 Stunden

Was Sie lernen werden

  • Explain core patterns for schema evolution (backward/forward/full compatibility, additive vs. breaking changes) and select the right strategy.

  • Implement versioned event/data contracts with Avro or Protobuf using a schema registry and enforce compatibility rules in CI/CD.

  • Orchestrate real‑time rollout plans across producers, consumers, and storage (Kafka topics, CDC sinks, warehouses) with monitoring and rollback.

Kompetenzen, die Sie erwerben

Kategorie: Data Warehousing
Kategorie: Data Pipelines
Kategorie: Real Time Data
Kategorie: Automation
Kategorie: Automation Engineering
Kategorie: Warehouse Management
Kategorie: Continuous Monitoring
Kategorie: Continuous Integration
Kategorie: Operational Databases
Kategorie: CI/CD
Kategorie: System Monitoring
Kategorie: Data Validation
Kategorie: Continuous Deployment
Kategorie: Software Versioning
Kategorie: Apache Kafka
Ensure Consistency in Streaming Pipelines

Ensure Consistency in Streaming Pipelines

KURS 4, 4 Stunden

Was Sie lernen werden

  • Stream pipeline design by analyzing failure scenarios and business requirements to prevent data loss or duplication.

  • Implement exactly-once processing semantics across producer, processor, and sink layers using transactions, checkpoints, and idempotent operations.

  • Evaluate watermarking and windowing configurations to optimize the tradeoff between latency and data completeness.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Apache Kafka
Kategorie: Scenario Testing
Kategorie: Data Architecture
Kategorie: Event Monitoring
Kategorie: Apache
Kategorie: Integration Testing
Kategorie: Transaction Processing
Kategorie: System Design and Implementation
Kategorie: Production Management
Kategorie: Internet Of Things
Kategorie: Performance Tuning
Kategorie: Data Validation
Kategorie: Project Implementation
Kategorie: Data Pipelines
Kategorie: Real Time Data
Kategorie: Verification And Validation
Kategorie: Configuration Management
Kategorie: Data Integrity
Process Real-Time Data with Spark Streams

Process Real-Time Data with Spark Streams

KURS 5, 6 Stunden

Was Sie lernen werden

  • Explain the execution model of Spark Structured Streaming and build a simple pipeline from a file source to a console sink.

  • Develop streaming pipelines that integrate with Kafka, apply event-time processing with watermarks, and write reliable outputs to Delta Lake.

  • Build an end-to-end Spark streaming pipeline that can be deployed in real-world production environments.

Kompetenzen, die Sie erwerben

Kategorie: Data Processing
Kategorie: Apache Spark
Kategorie: Real Time Data
Kategorie: Data-Driven Decision-Making
Kategorie: Live Streaming
Kategorie: Data Transformation
Kategorie: Event Management
Kategorie: Apache Kafka
Kategorie: JSON
Kategorie: Fraud detection
Kategorie: Event Monitoring
Kategorie: Data Lakes
Kategorie: PySpark
Kategorie: Data Integration
Kategorie: Data Pipelines
Kategorie: Scalability
Optimize Spark Performance & Throughput

Optimize Spark Performance & Throughput

KURS 6, 4 Stunden

Was Sie lernen werden

  • Inspect Spark UI and metrics (task duration, shuffle I/O, executor CPU/mem) to find bottlenecks and recommend actionable optimizations.

  • Apply partitioning and skew mitigation (salting/custom partitioner) & reduce shuffle (broadcast joins, avoid groupByKey, AQE) to improve parallelism.

  • Configure executors, cores, memory, dynamic allocation and parallelism/caching settings to maximize throughput while meeting defined SLA targets.

Kompetenzen, die Sie erwerben

Kategorie: Performance Tuning
Kategorie: Apache Spark
Kategorie: Process Optimization
Kategorie: Resource Allocation
Kategorie: System Configuration
Kategorie: Performance Analysis
Kategorie: PySpark
Kategorie: Memory Management
Kategorie: Service Level
Kategorie: Job Analysis
Process & Analyze Real-Time Data Fast

Process & Analyze Real-Time Data Fast

KURS 7, 5 Stunden

Was Sie lernen werden

  • Architect a streaming data solution by differentiating between batch, micro-batch, and streaming patterns to solve a specific business problem.

  • Develop real-time analytics pipelines using window functions and watermarking to aggregate and analyze streaming data.

  • Optimize a production streaming application by diagnosing performance bottlenecks like data skew and implementing mitigation techniques.

Kompetenzen, die Sie erwerben

Kategorie: Real Time Data
Kategorie: Apache Spark
Kategorie: Fraud detection
Kategorie: PySpark
Kategorie: Data Analysis
Kategorie: Performance Analysis
Kategorie: Dashboard Creation
Kategorie: Internet Of Things
Kategorie: Trend Analysis
Kategorie: Performance Improvement
Kategorie: Databricks
Kategorie: Data Processing
Kategorie: Data Pipelines
Kategorie: Performance Tuning
Kategorie: Dashboard
Kategorie: Big Data
Build Real-Time Dashboards with Spark

Build Real-Time Dashboards with Spark

KURS 8, 5 Stunden

Was Sie lernen werden

  • Explain Spark’s streaming model and produce a dashboard-ready table from a simple file source.

  • Construct a real-time pipeline that ingests from Kafka, processes with Spark, and stores result in Delta using event-time windows and watermarks.

  • Operate a production-oriented dashboard with refresh policies, monitoring, and failure recovery.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Apache Kafka
Kategorie: Real Time Data
Kategorie: Continuous Monitoring
Kategorie: JSON
Kategorie: PySpark
Kategorie: Data Lakes
Kategorie: Business Intelligence
Kategorie: Business Metrics
Kategorie: Dashboard
Kategorie: Data Pipelines
Kategorie: Data Persistence
Kategorie: Dashboard Creation
Transform and Validate Real-Time Data Fast

Transform and Validate Real-Time Data Fast

KURS 9, 5 Stunden

Was Sie lernen werden

  • Transform nested and streaming data into analytics-ready tables using programming tools and platforms.

  • Implement automated data quality checks and integrate these checks into CI/CD pipelines to enforce quality gates.

  • Build and manage scalable real-time analytics pipelines that block low-quality data and connect curated datasets to Power BI dashboards.

Kompetenzen, die Sie erwerben

Kategorie: Power BI
Kategorie: PySpark
Kategorie: Data Transformation
Kategorie: Data Validation
Kategorie: Data Quality
Kategorie: Data Processing
Kategorie: Performance Tuning
Kategorie: Data Governance
Kategorie: Real Time Data
Kategorie: Live Streaming
Kategorie: Dashboard
Kategorie: Data Integrity
Kategorie: CI/CD
Kategorie: Business Intelligence
Kategorie: Data Pipelines
Kategorie: Dashboard Creation
Orchestrate & Recover Real-Time Data Pipelines

Orchestrate & Recover Real-Time Data Pipelines

KURS 10, 4 Stunden

Was Sie lernen werden

  • Build and schedule streaming and batch-adjacent workflows using a modern orchestrator, such as Airflow or Prefect.

  • IImplement reliability patterns like idempotence, checkpointing, DLQs, and backfills for fault-tolerant and exactly-once-ish processing.

  • Design multi-region recovery strategies (mirroring/replication) and run playbooks to restore pipelines after partial or regional failures.

Kompetenzen, die Sie erwerben

Kategorie: Apache Kafka
Kategorie: Real Time Data
Kategorie: Apache Spark
Kategorie: Disaster Recovery
Kategorie: Apache Airflow
Kategorie: Workflow Management
Kategorie: Dataflow
Kategorie: Data Infrastructure
Kategorie: Data Integrity
Kategorie: Data Processing
Kategorie: Data Pipelines
Kategorie: Site Reliability Engineering
Stream & Unify Data Schemas with CDC

Stream & Unify Data Schemas with CDC

KURS 11, 5 Stunden

Was Sie lernen werden

  • Explain CDC fundamentals (binlog/WAL) and schema evolution strategies.

  • Configure a Schema Registry pipeline locally using Debezium and Kafka.

  • Use streaming SQL (Flink/ksqlDB) to map, cast, and merge divergent schemas into a canonical model.

Kompetenzen, die Sie erwerben

Kategorie: Real Time Data
Kategorie: Data Validation
Kategorie: Data Pipelines
Kategorie: Data Transformation
Kategorie: Continuous Monitoring
Kategorie: SQL
Kategorie: PostgreSQL
Kategorie: Cloud Deployment
Kategorie: Data Store
Kategorie: Schematic Diagrams
Kategorie: Data Integrity
Kategorie: Data Capture
Kategorie: Data Modeling
Kategorie: Apache Kafka
Kategorie: Continuous Integration
Kategorie: Data Storage Technologies
Kategorie: Data Mapping
Design Real-Time Architectures with Spark & Kafka

Design Real-Time Architectures with Spark & Kafka

KURS 12, 4 Stunden

Was Sie lernen werden

  • Examine core real-time data principles and how Kafka and Spark support streaming architectures.

  • Create real-time pipelines by connecting Kafka topics with Spark Structured Streaming.

  • Improve and deploy streaming systems using monitoring, fault tolerance, and tuning.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Real Time Data
Kategorie: Apache Kafka
Kategorie: Data Processing
Kategorie: Systems Architecture
Kategorie: Application Deployment
Kategorie: Distributed Computing
Kategorie: Software Architecture
Kategorie: Architecture and Construction
Kategorie: Performance Tuning
Kategorie: Real-Time Operating Systems
Kategorie: Event-Driven Programming
Kategorie: Data Transformation
Kategorie: Performance Management
Kategorie: Data Pipelines
Kategorie: Scalability

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Caio Avelino
9 Kurse8.686 Lernende
Jairo Sanchez
5 Kurse8.800 Lernende
Starweaver
Coursera
561 Kurse1.118.027 Lernende

von

Coursera

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Häufig gestellte Fragen