Duke University
Spark, Hadoop et Snowflake pour l'ingénierie des données

Débloquez l'accès à plus de 10 000 cours avec Coursera Plus. Essai gratuit de 7 jours.

Duke University

Spark, Hadoop et Snowflake pour l'ingénierie des données

Noah Gift
Kennedy Behrman
Matt Harrison

Instructeurs : Noah Gift

13 271 déjà inscrits

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
3.9

(61 avis)

niveau Avancées

Expérience recommandée

3 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
3.9

(61 avis)

niveau Avancées

Expérience recommandée

3 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Créer des pipelines de données évolutifs (Hadoop, Spark, Snowflake, Databricks) pour un traitement efficace des données.

  • Optimisez l'ingénierie des données avec le clustering et la mise à l'échelle pour stimuler les performances et l'utilisation des ressources.

  • Construire des solutions ML (PySpark, MLFlow) sur Databricks pour un développement et un déploiement de modèles en toute transparence.

  • Mettre en œuvre les pratiques DataOps et DevOps pour l'intégration et le déploiement continus (CI/CD) d'applications axées sur les données, y compris l'automatisation des processus.

Compétences que vous acquerrez

  • Catégorie : PySpark
  • Catégorie : Apache Hadoop
  • Catégorie : Programmation en Python
  • Catégorie : Schéma du flocon de neige
  • Catégorie : DevOps
  • Catégorie : SQL
  • Catégorie : Traitement des données
  • Catégorie : Entreposage de données
  • Catégorie : Big Data
  • Catégorie : MLOps (Apprentissage automatique)
  • Catégorie : Transformation de données
  • Catégorie : Qualité des données
  • Catégorie : Apache Spark
  • Catégorie : Bases de données
  • Catégorie : Intégration de données
  • Catégorie : Pipelines de données

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

21 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation Ingénierie des données appliquée à Python
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable

Il y a 4 modules dans ce cours

Dans ce module, vous apprendrez à travailler avec différentes plateformes d'ingénierie des données, telles que Hadoop et Spark, et à appliquer leurs concepts à des scénarios réels. Tout d'abord, vous explorerez les principes fondamentaux de Hadoop pour stocker et traiter les big data. Ensuite, vous vous plongerez dans les concepts de Spark, l'informatique distribuée, l'exécution différée et Spark SQL. À la fin de la semaine, vous aurez acquis une expérience pratique avec PySpark DataFrames, les méthodes DataFrame et les stratégies d'exécution différée.

Inclus

10 vidéos10 lectures7 devoirs1 sujet de discussion2 laboratoires non notés

Dans ce module, vous explorerez la plateforme Snowflake, en acquérant des connaissances sur son architecture et ses concepts clés. Grâce à des exercices pratiques dans l'UI de Snowflake, vous apprendrez à créer des tables, à gérer des entrepôts et à utiliser le connecteur Python de Snowflake pour interagir avec les tables. À la fin de cette semaine, vous aurez consolidé votre compréhension de l'architecture et des applications pratiques de Snowflake, et vous serez en mesure de naviguer efficacement et d'exploiter la plateforme pour la gestion et l'analyse des données.

Inclus

8 vidéos5 lectures6 devoirs

Dans ce module, vous mettrez en pratique les compétences essentielles pour gérer de manière transparente les workflows d'apprentissage automatique à l'aide de Databricks et de MLFlow. Tout d'abord, vous allez créer un espace de travail Databricks et configurer un cluster, en préparant le terrain pour une analyse efficace des données. Ensuite, vous chargerez un échantillon de données dans l'espace de travail Databricks en cours d'utilisation de PySpark, permettant la manipulation et l'exploration des données. Enfin, vous installerez MLFlow soit localement, soit dans l'environnement Databricks, ce qui vous permettra d'orchestrer l'ensemble du cycle de vie de l'apprentissage automatique. À la fin de cette semaine, vous serez en mesure de créer, de suivre et de gérer des expériences d'apprentissage automatique dans Databricks, garantissant la précision, la reproductibilité et la prise de décision basée sur les données.

Inclus

16 vidéos7 lectures4 devoirs1 laboratoire non noté

Dans ce module, vous explorerez les concepts de Kaizen, DevOps et DataOps et la façon dont ces méthodologies contribuent en synergie à des flux de travail d'ingénierie des données efficaces et transparents. À travers des exemples pratiques, vous apprendrez comment la philosophie d'amélioration continue de Kaizen, les pratiques collaboratives de DevOps et l'accent mis par DataOps sur la qualité et l'intégration des données convergent pour améliorer le développement, le déploiement et la gestion des plateformes d'ingénierie des données. À la fin de cette semaine, vous aurez les connaissances et la perspective nécessaires pour optimiser les processus d'ingénierie des données et fournir des solutions évolutives, fiables et de haute qualité.

Inclus

21 vidéos7 lectures4 devoirs1 laboratoire non noté

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Évaluations de l’enseignant
3.8 (16 évaluations)
Noah Gift
Duke University
40 Cours205 116 apprenants

Offert par

Duke University

En savoir plus sur Apprentissage automatique

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

3.9

61 avis

  • 5 stars

    53,22 %

  • 4 stars

    16,12 %

  • 3 stars

    9,67 %

  • 2 stars

    9,67 %

  • 1 star

    11,29 %

Affichage de 3 sur 61

VD
5

Révisé le 15 janv. 2024

MK
5

Révisé le 6 août 2024

Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions