Coursera

Spezialisierung „Real-Time, Real Fast: Kafka & Spark for Data Engineers“

spezialisierung ist nicht verfügbar in Deutsch (Deutschland)

Wir übersetzen es in weitere Sprachen.
Coursera

Spezialisierung „Real-Time, Real Fast: Kafka & Spark for Data Engineers“

Real-Time Kafka & Spark Data Engineering.

Build fault-tolerant streaming pipelines processing millions of events with Kafka & Spark.

Caio Avelino
Jairo Sanchez
Starweaver

Dozenten: Caio Avelino

Bei Coursera Plus enthalten

Befassen Sie sich eingehend mit einem Thema
Stufe Mittel

Empfohlene Erfahrung

4 Wochen zu vervollständigen
unter 10 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen
Befassen Sie sich eingehend mit einem Thema
Stufe Mittel

Empfohlene Erfahrung

4 Wochen zu vervollständigen
unter 10 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

  • Design and optimize Kafka clusters for high throughput, low latency, and fault tolerance in production environments

  • Build end-to-end streaming pipelines with Spark Structured Streaming, exactly-once semantics, and schema evolution

  • Implement real-time dashboards, orchestration, and disaster recovery for enterprise streaming architectures

Kompetenzen, die Sie erwerben

  • Kategorie: Data Architecture
  • Kategorie: Data Governance
  • Kategorie: Data Integrity
  • Kategorie: Data Pipelines
  • Kategorie: Data Processing
  • Kategorie: Data Transformation
  • Kategorie: Disaster Recovery
  • Kategorie: Event-Driven Programming
  • Kategorie: Performance Tuning
  • Kategorie: Real Time Data
  • Kategorie: Scalability
  • Kategorie: System Monitoring

Werkzeuge, die Sie lernen werden

  • Kategorie: Apache Kafka
  • Kategorie: Apache Spark
  • Kategorie: Docker (Software)
  • Kategorie: Fraud detection
  • Kategorie: Grafana
  • Kategorie: Power BI
  • Kategorie: Prometheus (Software)
  • Kategorie: PySpark

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Unterrichtet in Englisch
Kürzlich aktualisiert!

Januar 2026

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

 Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse.

  • Erlernen Sie gefragte Kompetenzen von Universitäten und Branchenexperten.
  • Erlernen Sie ein Thema oder ein Tool mit echten Projekten.
  • Entwickeln Sie ein fundiertes Verständnisse der Kernkonzepte.
  • Erwerben Sie ein Karrierezertifikat von Coursera.

Spezialisierung - 12 Kursreihen

Optimize Kafka for Speed & Availability

Optimize Kafka for Speed & Availability

KURS 1, 4 Stunden

Was Sie lernen werden

  • Configure Kafka topics with appropriate replication factors, partition counts, and durability settings to ensure high availability.

  • Diagnose performance bottlenecks using consumer lag metrics, broker health indicators, and throughput analysis.

  • Optimize producer and consumer configurations including batching, compression, and parallelism to maximize throughput while meeting latency SLAs.

Kompetenzen, die Sie erwerben

Kategorie: Performance Tuning
Kategorie: System Configuration
Kategorie: Apache Kafka
Kategorie: Content Strategy
Kategorie: Distributed Computing
Kategorie: Grafana
Kategorie: Process Optimization
Kategorie: Data Integrity
Kategorie: Command-Line Interface
Kategorie: Real Time Data
Kategorie: System Monitoring
Kategorie: Scalability
Kategorie: Data Loss Prevention
Kategorie: Prometheus (Software)
Stream & Optimize Real-Time Data Flows

Stream & Optimize Real-Time Data Flows

KURS 2, 4 Stunden

Was Sie lernen werden

  • Evaluate log configurations to recommend tiered storage, retention policies, and access controls.

  • Design stream processing topologies that implement join patterns, aggregation windows, and state management for real-time data transformation.

  • Optimize real-time data flows by analyzing throughput bottlenecks, partition strategies, and resource allocation to meet SLAs within budget limits.

Kompetenzen, die Sie erwerben

Kategorie: Payment Card Industry (PCI) Data Security Standards
Kategorie: Apache Kafka
Kategorie: Real Time Data
Kategorie: Computer Architecture
Kategorie: Data Pipelines
Kategorie: Apache
Kategorie: Performance Stress Testing
Kategorie: System Configuration
Kategorie: Data Architecture
Kategorie: Compliance Management
Kategorie: Cost Management
Kategorie: Multi-Tenant Cloud Environments
Kategorie: Performance Tuning
Kategorie: Data Storage
Kategorie: Governance
Kategorie: Data Governance
Kategorie: Scalability
Manage Schema Evolution in Real‑Time Data

Manage Schema Evolution in Real‑Time Data

KURS 3, 4 Stunden

Was Sie lernen werden

  • Explain core patterns for schema evolution (backward/forward/full compatibility, additive vs. breaking changes) and select the right strategy.

  • Implement versioned event/data contracts with Avro or Protobuf using a schema registry and enforce compatibility rules in CI/CD.

  • Orchestrate real‑time rollout plans across producers, consumers, and storage (Kafka topics, CDC sinks, warehouses) with monitoring and rollback.

Kompetenzen, die Sie erwerben

Kategorie: Data Pipelines
Kategorie: Real Time Data
Kategorie: Data Warehousing
Kategorie: Automation Engineering
Kategorie: CI/CD
Kategorie: Software Versioning
Kategorie: Warehouse Management
Kategorie: Data Validation
Kategorie: Operational Databases
Kategorie: Continuous Deployment
Kategorie: Continuous Monitoring
Kategorie: Apache Kafka
Kategorie: Automation
Kategorie: System Monitoring
Kategorie: Continuous Integration
Ensure Consistency in Streaming Pipelines

Ensure Consistency in Streaming Pipelines

KURS 4, 4 Stunden

Was Sie lernen werden

  • Stream pipeline design by analyzing failure scenarios and business requirements to prevent data loss or duplication.

  • Implement exactly-once processing semantics across producer, processor, and sink layers using transactions, checkpoints, and idempotent operations.

  • Evaluate watermarking and windowing configurations to optimize the tradeoff between latency and data completeness.

Kompetenzen, die Sie erwerben

Kategorie: Apache Kafka
Kategorie: Apache Spark
Kategorie: Transaction Processing
Kategorie: Project Implementation
Kategorie: Apache
Kategorie: Internet Of Things
Kategorie: System Design and Implementation
Kategorie: Requirements Analysis
Kategorie: Verification And Validation
Kategorie: Scenario Testing
Kategorie: Data Validation
Kategorie: Data Pipelines
Kategorie: Production Management
Kategorie: Real Time Data
Kategorie: Service Level
Kategorie: Performance Tuning
Kategorie: Integration Testing
Kategorie: Data Architecture
Kategorie: Data Integrity
Process Real-Time Data with Spark Streams

Process Real-Time Data with Spark Streams

KURS 5, 6 Stunden

Was Sie lernen werden

  • Explain the execution model of Spark Structured Streaming and build a simple pipeline from a file source to a console sink.

  • Develop streaming pipelines that integrate with Kafka, apply event-time processing with watermarks, and write reliable outputs to Delta Lake.

  • Build an end-to-end Spark streaming pipeline that can be deployed in real-world production environments.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Data Processing
Kategorie: Real Time Data
Kategorie: Data Integration
Kategorie: Live Streaming
Kategorie: Data Lakes
Kategorie: Apache Kafka
Kategorie: Fraud detection
Kategorie: Event Management
Kategorie: Data-Driven Decision-Making
Kategorie: PySpark
Kategorie: Event Monitoring
Kategorie: Data Pipelines
Kategorie: Scalability
Kategorie: Data Transformation
Kategorie: JSON
Optimize Spark Performance & Throughput

Optimize Spark Performance & Throughput

KURS 6, 4 Stunden

Was Sie lernen werden

  • Inspect Spark UI and metrics (task duration, shuffle I/O, executor CPU/mem) to find bottlenecks and recommend actionable optimizations.

  • Apply partitioning and skew mitigation (salting/custom partitioner) & reduce shuffle (broadcast joins, avoid groupByKey, AQE) to improve parallelism.

  • Configure executors, cores, memory, dynamic allocation and parallelism/caching settings to maximize throughput while meeting defined SLA targets.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Performance Tuning
Kategorie: Process Optimization
Kategorie: PySpark
Kategorie: Service Level
Kategorie: Resource Allocation
Kategorie: Memory Management
Kategorie: Performance Analysis
Kategorie: System Configuration
Kategorie: Job Analysis
Process & Analyze Real-Time Data Fast

Process & Analyze Real-Time Data Fast

KURS 7, 5 Stunden

Was Sie lernen werden

  • Architect a streaming data solution by differentiating between batch, micro-batch, and streaming patterns to solve a specific business problem.

  • Develop real-time analytics pipelines using window functions and watermarking to aggregate and analyze streaming data.

  • Optimize a production streaming application by diagnosing performance bottlenecks like data skew and implementing mitigation techniques.

Kompetenzen, die Sie erwerben

Kategorie: Real Time Data
Kategorie: Fraud detection
Kategorie: Apache Spark
Kategorie: Performance Improvement
Kategorie: Internet Of Things
Kategorie: Data Analysis
Kategorie: Big Data
Kategorie: Performance Analysis
Kategorie: Dashboard
Kategorie: Data Pipelines
Kategorie: Performance Tuning
Kategorie: PySpark
Kategorie: Dashboard Creation
Kategorie: Databricks
Kategorie: Data Processing
Kategorie: Trend Analysis
Build Real-Time Dashboards with Spark

Build Real-Time Dashboards with Spark

KURS 8, 5 Stunden

Was Sie lernen werden

  • Explain Spark’s streaming model and produce a dashboard-ready table from a simple file source.

  • Construct a real-time pipeline that ingests from Kafka, processes with Spark, and stores result in Delta using event-time windows and watermarks.

  • Operate a production-oriented dashboard with refresh policies, monitoring, and failure recovery.

Kompetenzen, die Sie erwerben

Kategorie: Real Time Data
Kategorie: Apache Kafka
Kategorie: Apache Spark
Kategorie: Data Persistence
Kategorie: Dashboard Creation
Kategorie: Dashboard
Kategorie: Business Metrics
Kategorie: Continuous Monitoring
Kategorie: Data Lakes
Kategorie: JSON
Kategorie: Data Pipelines
Kategorie: PySpark
Kategorie: Business Intelligence
Transform and Validate Real-Time Data Fast

Transform and Validate Real-Time Data Fast

KURS 9, 5 Stunden

Was Sie lernen werden

  • Transform nested and streaming data into analytics-ready tables using programming tools and platforms.

  • Implement automated data quality checks and integrate these checks into CI/CD pipelines to enforce quality gates.

  • Build and manage scalable real-time analytics pipelines that block low-quality data and connect curated datasets to Power BI dashboards.

Kompetenzen, die Sie erwerben

Kategorie: Data Quality
Kategorie: PySpark
Kategorie: Data Validation
Kategorie: Power BI
Kategorie: Data Transformation
Kategorie: Live Streaming
Kategorie: Dashboard Creation
Kategorie: Data Pipelines
Kategorie: Data Processing
Kategorie: Data Integrity
Kategorie: Business Intelligence
Kategorie: CI/CD
Kategorie: Data Governance
Kategorie: Real Time Data
Kategorie: Performance Tuning
Kategorie: Dashboard
Orchestrate & Recover Real-Time Data Pipelines

Orchestrate & Recover Real-Time Data Pipelines

KURS 10, 4 Stunden

Was Sie lernen werden

  • Build and schedule streaming and batch-adjacent workflows using a modern orchestrator, such as Airflow or Prefect.

  • IImplement reliability patterns like idempotence, checkpointing, DLQs, and backfills for fault-tolerant and exactly-once-ish processing.

  • Design multi-region recovery strategies (mirroring/replication) and run playbooks to restore pipelines after partial or regional failures.

Kompetenzen, die Sie erwerben

Kategorie: Apache Airflow
Kategorie: Disaster Recovery
Kategorie: Apache Spark
Kategorie: Real Time Data
Kategorie: Apache Kafka
Kategorie: Workflow Management
Kategorie: Data Integrity
Kategorie: Site Reliability Engineering
Kategorie: Data Infrastructure
Kategorie: Dataflow
Kategorie: Data Processing
Kategorie: Data Pipelines
Stream & Unify Data Schemas with CDC

Stream & Unify Data Schemas with CDC

KURS 11, 5 Stunden

Was Sie lernen werden

  • Explain CDC fundamentals (binlog/WAL) and schema evolution strategies.

  • Configure a Schema Registry pipeline locally using Debezium and Kafka.

  • Use streaming SQL (Flink/ksqlDB) to map, cast, and merge divergent schemas into a canonical model.

Kompetenzen, die Sie erwerben

Kategorie: Real Time Data
Kategorie: Data Validation
Kategorie: Data Pipelines
Kategorie: Data Transformation
Kategorie: Data Store
Kategorie: SQL
Kategorie: Data Mapping
Kategorie: Data Capture
Kategorie: Continuous Monitoring
Kategorie: Apache Kafka
Kategorie: Continuous Integration
Kategorie: Cloud Deployment
Kategorie: Data Modeling
Kategorie: PostgreSQL
Kategorie: Schematic Diagrams
Kategorie: Data Storage Technologies
Kategorie: Data Integrity
Design Real-Time Architectures with Spark & Kafka

Design Real-Time Architectures with Spark & Kafka

KURS 12, 4 Stunden

Was Sie lernen werden

  • Examine core real-time data principles and how Kafka and Spark support streaming architectures.

  • Create real-time pipelines by connecting Kafka topics with Spark Structured Streaming.

  • Improve and deploy streaming systems using monitoring, fault tolerance, and tuning.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Real Time Data
Kategorie: Apache Kafka
Kategorie: Real-Time Operating Systems
Kategorie: Data Transformation
Kategorie: Software Architecture
Kategorie: Event-Driven Programming
Kategorie: Systems Architecture
Kategorie: Data Processing
Kategorie: Application Deployment
Kategorie: Performance Management
Kategorie: Distributed Computing
Kategorie: Data Pipelines
Kategorie: Architecture and Construction
Kategorie: Scalability
Kategorie: Performance Tuning

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Caio Avelino
9 Kurse8.666 Lernende
Jairo Sanchez
5 Kurse8.789 Lernende
Starweaver
Coursera
561 Kurse1.115.551 Lernende

von

Coursera

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Häufig gestellte Fragen