Coursera

Spécialisation "Pipeline Architects: Data Engineering to Lakehouse"

Économisez sur les compétences qui vous font briller avec 40 % de réduction sur 3 mois de Coursera Plus. Économisez maintenant

Ce spécialisation n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Coursera

Spécialisation "Pipeline Architects: Data Engineering to Lakehouse"

Build Data Pipelines That Scale to Production.

Master ingestion, transformation, orchestration, and lakehouse architecture at scale.

Hurix Digital

Instructeur : Hurix Digital

Inclus avec Coursera Plus

Approfondissez votre connaissance d’un sujet
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Approfondissez votre connaissance d’un sujet
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Design data flow diagrams and configure Airbyte connectors for relational databases, streaming platforms, and REST APIs to unify diverse sources.

  • Build modular ETL pipelines using Python, dbt, and Airflow, and evaluate columnar versus row-oriented storage formats for analytical workloads.

  • Implement incremental warehouse loading, SCD2 historical tracking, and data lake transactions with versioning and schema evolution support.

  • Architect and build lakehouse platforms using Delta Lake, Iceberg, and Hudi, registering external tables and automating ingestion pipelines.

Compétences que vous acquerrez

  • Catégorie : Cloud Deployment
  • Catégorie : Data Flow Diagrams (DFDs)
  • Catégorie : Data Governance
  • Catégorie : Data Integration
  • Catégorie : Data Management
  • Catégorie : Data Mapping
  • Catégorie : Data Modeling
  • Catégorie : Data Pipelines
  • Catégorie : Data Warehousing
  • Catégorie : Dataflow
  • Catégorie : Diagram Design
  • Catégorie : Extract, Transform, Load
  • Catégorie : Performance Tuning
  • Catégorie : Service Level Agreement
  • Catégorie : SQL
  • Catégorie : Trend Analysis

Outils que vous découvrirez

  • Catégorie : Apache Airflow
  • Catégorie : Apache Kafka
  • Catégorie : Data Lakes
  • Catégorie : Python Programming

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais
Récemment mis à jour !

avril 2026

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Améliorez votre expertise en la matière

  • Acquérez des compétences recherchées auprès d’universités et d’experts du secteur
  • Maîtrisez un sujet ou un outil avec des projets pratiques
  • Développez une compréhension approfondie de concepts clés
  • Obtenez un certificat professionnel auprès de Coursera

Spécialisation - série de 10 cours

Map Data Flows Fast

Map Data Flows Fast

COURS 1, 1 heure

Ce que vous apprendrez

  • Visual data flow docs are key for system clarity and form the base for good pipeline design and team communication.

  • Complete data flow diagrams must show the full journey from sources through transforms to final destinations.

  • Structured diagram creation follows steps: find sources, map processes, set destinations, and check connections.

  • Good data flow visuals connect technical work with business needs, enabling stakeholder alignment and decisions.

Compétences que vous acquerrez

Catégorie : Data Flow Diagrams (DFDs)
Catégorie : Data Pipelines
Catégorie : Dataflow
Catégorie : Diagram Design
Catégorie : Data Transformation
Catégorie : Data Visualization
Catégorie : Technical Communication
Catégorie : Data Mapping
Catégorie : Data Store
Unify Diverse Data Sources

Unify Diverse Data Sources

COURS 2, 1 heure

Ce que vous apprendrez

  • Standardized connector configuration patterns apply across different data source types, making integration skills transferable.

  • Authentication and security considerations must be built into every connector setup to ensure enterprise-grade data protection.

  • Proper offset and parameter management in streaming and API connections prevents data loss and ensures complete data capture.

  • Unified staging approaches enable downstream analytics and business intelligence regardless of source system complexity.

Compétences que vous acquerrez

Catégorie : Enterprise Security
Catégorie : Data Integration
Catégorie : Application Programming Interface (API)
Catégorie : Enterprise Architecture
Catégorie : Database Management
Catégorie : Databases
Catégorie : Real Time Data
Catégorie : Data Infrastructure
Catégorie : Apache Kafka
Catégorie : Authentications
Catégorie : Relational Databases
Catégorie : Restful API
Catégorie : Systems Integration
Evaluate Storage for Data Warehousing Success

Evaluate Storage for Data Warehousing Success

COURS 3, 2 heures

Ce que vous apprendrez

  • Storage format choice strongly affects query performance and should match workload needs, not general assumptions.

  • Column storage suits read-heavy analytics, while row storage performs better for transactional and write-focused workloads.

  • Benchmarking with real datasets and queries offers the best basis for sound storage architecture decisions.

  • Compression and ingestion speed must be balanced carefully to align performance with business priorities.

Compétences que vous acquerrez

Catégorie : Data Warehousing
Catégorie : Performance Testing
Catégorie : Data Storage
Catégorie : Performance Tuning
Catégorie : Data Import/Export
Catégorie : Query Languages
Catégorie : Data Storage Technologies
Catégorie : Data Architecture
Catégorie : Analysis
Catégorie : Star Schema
Catégorie : Amazon Redshift
Catégorie : Snowflake Schema
Catégorie : Apache Hive
Catégorie : Data Processing
Catégorie : Data Store
Build & Transform Data Pipelines

Build & Transform Data Pipelines

COURS 4, 2 heures

Ce que vous apprendrez

  • Modular pipeline design enables maintainable, scalable data systems that can adapt to changing business requirements.

  • Integration of complementary tools (Spark, dbt, Airflow) creates more robust and efficient data processing workflows than single-tool approaches.

  • Proper separation of concerns between ingestion, transformation, and loading stages reduces complexity and improves debugging capabilities.

  • Automation and orchestration are essential for reliable, production-grade data systems that minimize manual intervention and human error.

Compétences que vous acquerrez

Catégorie : Data Pipelines
Catégorie : Data Integration
Catégorie : Dataflow
Catégorie : Data Infrastructure
Catégorie : Data Processing
Catégorie : Apache Airflow
Catégorie : Cloud Deployment
Catégorie : Data Warehousing
Catégorie : Maintainability
Catégorie : Cloud Computing
Catégorie : Extract, Transform, Load
Update Your Data Warehouse Incrementally

Update Your Data Warehouse Incrementally

COURS 5, 2 heures

Ce que vous apprendrez

  • Standardized connector configuration patterns apply across different data source types, making integration skills transferable.

  • Authentication and security considerations must be built into every connector setup to ensure enterprise-grade data protection

  • Proper offset and parameter management in streaming and API connections prevents data loss and ensures complete data capture.

  • Unified staging approaches enable downstream analytics and business intelligence regardless of source system complexity.

Compétences que vous acquerrez

Catégorie : Data Warehousing
Catégorie : Data Processing
Catégorie : Data Pipelines
Catégorie : Extract, Transform, Load
Catégorie : Data Quality
Catégorie : Data Integration
Apply SCD2 to Build Dynamic Data Models

Apply SCD2 to Build Dynamic Data Models

COURS 6, 2 heures

Ce que vous apprendrez

  • Historical data preservation is essential for accurate business analytics and regulatory compliance - once overwritten, critical context is lost.

  • SCD2 patterns create sustainable data architecture by maintaining complete audit trails through automated versioning than destructive updates.

  • Effective dimensional modeling requires systematic change detection logic that identifies modifications and creates new historical records.

  • Modern data tools like dbt democratize complex SCD2 implementation, making enterprise-grade historical tracking accessible through declarative SQL.

Compétences que vous acquerrez

Catégorie : Data Modeling
Catégorie : Scalability
Catégorie : Data Integrity
Catégorie : Data Pipelines
Catégorie : SQL
Catégorie : Trend Analysis
Catégorie : Business Intelligence
Catégorie : Data Warehousing
Apply Data Lake Transactions & Versioning

Apply Data Lake Transactions & Versioning

COURS 7, 2 heures

Ce que vous apprendrez

  • Transactional storage layers ensure data lake reliability, supporting concurrent operations and maintaining integrity.

  • Version control in data lakes enables auditing, compliance, time-travel queries, and error recovery for production systems.

  • Schema evolution strategies help data systems adapt to business changes while maintaining backward compatibility.

  • Converting raw files to transactional formats is a key pattern supporting both analytics and operational reliability.

Compétences que vous acquerrez

Catégorie : SQL
Catégorie : Data Lakes
Catégorie : Data Pipelines
Build & Analyze Your Data Lakehouse

Build & Analyze Your Data Lakehouse

COURS 8, 2 heures

Ce que vous apprendrez

  • External tables let query engines access distributed files without duplication, reshaping large-scale analytics design.

  • Choosing Delta, Iceberg, or Hudi requires evaluating schema changes, time travel needs, and performance goals.

  • Lakehouse architecture merges data lake flexibility with warehouse reliability using metadata and ACID support.

  • Automated ingestion with staging and transformation layers ensures consistent, high-quality data across analytics systems.

Compétences que vous acquerrez

Catégorie : Data Lakes
Catégorie : Data Pipelines
Catégorie : Automation
Catégorie : Data Warehousing
Catégorie : Apache Hive
Catégorie : Analysis
Automate Data Workflows with Airflow Excellence

Automate Data Workflows with Airflow Excellence

COURS 9, 1 heure

Ce que vous apprendrez

  • Production-grade workflows require proactive failure handling strategies, not reactive troubleshooting approaches.

  • Parameterization and configuration management are essential for workflow reusability across different environments and datasets.

  • Task dependency design and SLA monitoring form the foundation of reliable data pipeline operations.

  • Robust workflow architecture prevents downstream business disruptions and reduces operational overhead.

Compétences que vous acquerrez

Catégorie : Data Pipelines
Catégorie : Apache Airflow
Catégorie : Service Level
Catégorie : Dependency Analysis
Catégorie : Service Level Agreement
Catégorie : System Monitoring
Catégorie : Scalability
Catégorie : Workflow Management
Unify, Reconcile, and Tune Data Systems

Unify, Reconcile, and Tune Data Systems

COURS 10, 3 heures

Ce que vous apprendrez

  • SQL MERGE offers atomic sync that maintains consistency in CDC pipelines with minimal overhead.

  • Field-level conflict analysis needs clear business rules and source-of-truth hierarchies for reliable reconciliation.

  • Integration performance improves through measurement, bottleneck detection, and targeted tuning, not large redesigns.

  • Sustainable data systems balance quality, speed, and reliability through ongoing monitoring and iterative improvement.

Compétences que vous acquerrez

Catégorie : Data Management
Catégorie : Data Manipulation
Catégorie : Operational Databases
Catégorie : SQL
Catégorie : Performance Metric
Catégorie : Performance Measurement
Catégorie : Data Pipelines
Catégorie : Database Design
Catégorie : Consolidation
Catégorie : Application Performance Management
Catégorie : Performance Tuning
Catégorie : Performance Improvement
Catégorie : Data Integrity
Catégorie : Data Cleansing
Catégorie : Data Quality
Catégorie : Systems Integration
Catégorie : Performance Testing
Catégorie : Data Validation
Catégorie : Data Integration
Catégorie : Data Governance

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Hurix Digital
443 Cours49 953 apprenants

Offert par

Coursera

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions