Coursera

Certificat Professionnel Open source Data Engineering with Spark, dbt & Airflow

Économisez sur les compétences qui vous font briller avec 40 % de réduction sur 3 mois de Coursera Plus. Économisez maintenant

Ce certificat professionnel n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Coursera

Certificat Professionnel Open source Data Engineering with Spark, dbt & Airflow

Build Production Data Pipelines at Scale.

Explore Spark, dbt, and Airflow to design, automate, and deploy enterprise-grade data pipelines.

Inclus avec Coursera Plus

Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Build modular, production-grade data pipelines using Apache Spark, dbt, and Airflow to ingest, transform, and load data at scale.

  • Design and implement dimensional data models including star schemas, SCD Type 2, and incremental load strategies for data warehouses.

  • Optimize distributed data processing by resolving Spark shuffle, skew, and partitioning issues to improve pipeline performance.

  • Automate deployments and enforce data quality using CI/CD pipelines, Docker containers, and automated testing frameworks like Great Expectations.

Compétences que vous acquerrez

  • Catégorie : CI/CD
  • Catégorie : Cloud Security
  • Catégorie : Data Flow Diagrams (DFDs)
  • Catégorie : Data Modeling
  • Catégorie : Data Pipelines
  • Catégorie : Data Validation
  • Catégorie : Data Warehousing
  • Catégorie : Database Design
  • Catégorie : Diagram Design
  • Catégorie : Interviewing Skills
  • Catégorie : Snowflake Schema
  • Catégorie : SQL
  • Catégorie : Star Schema
  • Catégorie : Workflow Management

Outils que vous découvrirez

  • Catégorie : Ansible
  • Catégorie : Apache Airflow
  • Catégorie : Apache Spark
  • Catégorie : Docker (Software)
  • Catégorie : Git (Version Control System)
  • Catégorie : PySpark

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais
Récemment mis à jour !

mars 2026

91%

of learners achieved a positive career outcome

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Faites progresser votre carrière avec des compétences recherchées

  • Recevez une formation professionnelle par Coursera
  • Démontrez vos compétences techniques
  • Obtenez un certificat reconnu par les employeurs auprès de Coursera

Certificat professionnel - série de 6 cours

Ce que vous apprendrez

  • Build end-to-end data pipelines that automatically ingest from databases, APIs, and streams using Spark, dbt, and Airflow tools.

  • Design data models with historical tracking using SCD Type 2 patterns to preserve complete change history for analytics.

  • Create automated workflows with intelligent retry logic, SLA monitoring, and parameterization for production reliability.

  • Optimize Spark job performance using partitioning and caching strategies to achieve 30%+ runtime improvements.

Compétences que vous acquerrez

Catégorie : Data Pipelines
Catégorie : Apache Airflow
Catégorie : Apache Spark
Catégorie : Data Flow Diagrams (DFDs)
Catégorie : Data Transformation
Catégorie : Data Architecture
Catégorie : Database Development
Catégorie : Enterprise Security
Catégorie : Configuration Management
Catégorie : Extract, Transform, Load
Catégorie : Data Processing
Catégorie : Data Modeling
Catégorie : Diagram Design
Catégorie : Data Integration
Catégorie : Data Warehousing
Catégorie : Data Mapping
Optimizing Spark and Cloud Data Storage for Analytics

Optimizing Spark and Cloud Data Storage for Analytics

COURS 2, 10 heures

Ce que vous apprendrez

  • Optimize Spark job performance through strategic partitioning and caching, achieving 30%+ runtime improvements using data access analysis.

  • Implement transactional data lakes with Delta format, enabling versioning, ACID operations, and schema evolution for reliable datasets.

  • Provision secure cloud data infrastructure using IAM policies, private networks, and encrypted storage following security best practices.

  • Evaluate and benchmark storage formats (Parquet, ORC, Avro) to select optimal solutions for analytical workloads and cost efficiency.

Compétences que vous acquerrez

Catégorie : Apache Spark
Catégorie : Performance Tuning
Catégorie : Cloud Security
Catégorie : Data Storage
Catégorie : Data Warehousing
Catégorie : Transaction Processing
Catégorie : Cloud Deployment
Catégorie : Data Security
Catégorie : Data Storage Technologies
Catégorie : Data Lakes
Catégorie : Cloud Storage
Catégorie : Data Management
Catégorie : Infrastructure Architecture
Catégorie : Cloud Infrastructure
Catégorie : Security Controls
Catégorie : PySpark
Catégorie : Cloud Computing Architecture
Catégorie : Cloud Computing
Catégorie : Infrastructure as Code (IaC)
Catégorie : Data Integrity

Ce que vous apprendrez

  • Design star schema data models with fact and dimension tables that enable intuitive self-service business intelligence reporting.

  • Apply third normal form normalization to optimize database structure while maintaining query performance through indexing strategies.

  • Use advanced SQL window functions to calculate rolling metrics, rankings, and time-series analytics for complex data analysis.

  • Implement database replication and incremental loading techniques to ensure high availability and efficient data warehouse updates.

Compétences que vous acquerrez

Catégorie : Database Management
Catégorie : Data Warehousing
Catégorie : Extract, Transform, Load
Catégorie : SQL
Catégorie : Database Design
Catégorie : Star Schema
Catégorie : Performance Tuning
Catégorie : Database Development
Catégorie : Database Theory
Catégorie : Database Software
Catégorie : Data Modeling
Catégorie : Data Integration
Catégorie : Database Architecture and Administration
Catégorie : Data Infrastructure
Catégorie : Business Intelligence
Catégorie : Relational Databases
Catégorie : PostgreSQL
DevOps and CI/CD for Data Engineering Performance

DevOps and CI/CD for Data Engineering Performance

COURS 4, 12 heures

Ce que vous apprendrez

  • Resolve merge conflicts and trace bugs using Git history tools, keeping collaborative codebases stable and production-ready.

  • Design branching strategies and automate deployments with CI/CD pipelines to safely promote data pipeline artifacts across environments.

  • Build and publish versioned Docker images and automate server configuration with Ansible for consistent, reproducible environments.

  • Analyze query execution metrics and optimize resource allocation to maintain performance targets in production data systems.

Compétences que vous acquerrez

Catégorie : CI/CD
Catégorie : DevOps
Catégorie : Containerization
Catégorie : Git (Version Control System)
Catégorie : Performance Tuning
Catégorie : Data Pipelines
Catégorie : Ansible
Catégorie : Application Deployment
Catégorie : Continuous Integration
Catégorie : Continuous Deployment
Catégorie : Devops Tools
Catégorie : Development Environment
Catégorie : Data Infrastructure
Catégorie : Configuration Management
Catégorie : Software Versioning
Catégorie : Infrastructure as Code (IaC)
Catégorie : Root Cause Analysis
Catégorie : Docker (Software)
Catégorie : Version Control
Data Quality and Debugging for Reliable Pipelines

Data Quality and Debugging for Reliable Pipelines

COURS 5, 7 heures

Ce que vous apprendrez

  • Define and automate data quality tests using YAML to validate row counts, null thresholds, and uniqueness across pipeline datasets.

  • Trace data anomalies through pipeline stages by analyzing logs and dashboards to identify and fix the exact source of failure.

  • Apply advanced Python debugging tools — including conditional breakpoints, watchpoints, and pdb — to diagnose and resolve pipeline issues.

  • Resolve complex concurrency bugs by reading stack traces and correlating thread logs to identify deadlocks and race conditions in code.

Compétences que vous acquerrez

Catégorie : Data Quality
Catégorie : Debugging
Catégorie : Data Validation
Catégorie : YAML
Catégorie : Test Automation
Catégorie : Data Integrity
Catégorie : Anomaly Detection
Catégorie : Memory Management
Catégorie : Generative AI
Catégorie : CI/CD
Catégorie : AI Integrations
Catégorie : Test Tools
Catégorie : Data Pipelines
Catégorie : Root Cause Analysis
Catégorie : Reliability
Catégorie : Performance Tuning
Catégorie : Python Programming
Career Development For Open Source Data Engineering

Career Development For Open Source Data Engineering

COURS 6, 2 heures

Ce que vous apprendrez

  • Build a data engineering portfolio with end-to-end pipeline projects that prove your ability to design, build, and deploy production-style systems.

  • Create a resume, LinkedIn profile, and GitHub presence that position you as a hands-on data engineer ready to contribute from day one.

  • Practice real data engineering interview scenarios and develop structured responses to technical, design, and behavioral questions.

  • Execute a 30-day career launch plan covering portfolio completion, job applications, and networking in the data engineering community.

Compétences que vous acquerrez

Catégorie : GitHub
Catégorie : Interviewing Skills
Catégorie : Data Presentation
Catégorie : Apache
Catégorie : Apache Spark
Catégorie : Portfolio Management
Catégorie : Data Quality
Catégorie : Web Presence
Catégorie : SQL
Catégorie : Professional Networking
Catégorie : Apache Airflow
Catégorie : Python Programming
Catégorie : Data Pipelines

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry
472 Cours85 951 apprenants

Offert par

Coursera

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

¹Basé sur les réponses au sondage sur les résultats des étudiants Coursera, États-Unis, 2021.