Packt

Ingénierie des données avec Scala et Spark

Obtenez l'une de nos meilleures offres avec Coursera Plus pour 199 $ (habituellement 399 $). Économisez maintenant.

Packt

Ingénierie des données avec Scala et Spark

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

2 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

2 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Mettre en place un environnement de développement pour la création de pipelines de données en Scala

  • Utiliser les DataFrames, les Datasets et le langage SQL de Spark avec Scala pour le traitement des données

  • Profilage et nettoyage des données avec Deequ pour une meilleure qualité des données

Compétences que vous acquerrez

  • Catégorie : Intégrité des données
  • Catégorie : Tests unitaires
  • Catégorie : Validation des données
  • Catégorie : Transformation des données
  • Catégorie : Qualité des données
  • Catégorie : Traitement des données
  • Catégorie : CI/CD
  • Catégorie : Intégration continue
  • Catégorie : Pipelines de données
  • Catégorie : Magasin de données
  • Catégorie : Développement piloté par les tests (TDD)
  • Catégorie : Architecture des données
  • Catégorie : Maintenabilité
  • Catégorie : Optimisation des performances
  • Catégorie : Déploiement continu

Outils que vous découvrirez

  • Catégorie : Apache Spark
  • Catégorie : Programmation en Scala
  • Catégorie : Flux d'air Apache
  • Catégorie : Apache Kafka
  • Catégorie : Lacs de données

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

mars 2026

Évaluations

13 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Il y a 13 modules dans ce cours

Dans cette section, nous explorons la programmation fonctionnelle, les fonctions d'ordre supérieur, les fonctions polymorphes et le filtrage en Scala pour les applications d'ingénierie des données.

Inclus

2 vidéos6 lectures1 devoir

Dans cette section, nous explorons les environnements locaux et basés sur le cloud pour les pipelines d'ingénierie des données, en nous concentrant sur les processus de configuration, les compromis et les applications pratiques.

Inclus

1 vidéo5 lectures1 devoir

Dans cette section, nous explorons les API d'Apache Spark, en nous concentrant sur DataFrame et Dataset pour le traitement des données distribuées.

Inclus

1 vidéo3 lectures1 devoir

Dans cette section, nous explorons l'utilisation de l'API JDBC de Spark pour l'accès aux bases de données, la conception d'interfaces de base de données et l'exécution d'opérations avec chargement de configuration.

Inclus

1 vidéo3 lectures1 devoir

Dans cette section, nous explorons les magasins d'objets, les lacs de données et les entrepôts de données, en nous concentrant sur leur rôle dans la gestion efficace des flux de données à grande échelle.

Inclus

1 vidéo6 lectures1 devoir

Dans cette section, nous explorons les transformations, les agrégations, les jointures et les fonctions de fenêtre de Spark afin d'améliorer le traitement des données pour la BI et l'analytique. Les concepts clés comprennent la manipulation efficace des données et le développement de pipelines.

Inclus

1 vidéo4 lectures1 devoir

Dans cette section, nous explorons Deequ pour la mise en œuvre des contrôles de qualité des données, l'analyse de l'exhaustivité et de l'exactitude, et la définition des contraintes pour garantir la fiabilité des pipelines de données.

Inclus

1 vidéo3 lectures1 devoir

Dans cette section, nous explorons le développement piloté par les tests, l'analyse statique du code et le linting afin d'améliorer la qualité du code, la maintenabilité et la cohérence dans les projets d'ingénierie des données.

Inclus

1 vidéo4 lectures1 devoir

Dans cette section, nous explorons les pratiques CI/CD avec GitHub pour automatiser les flux de travail du pipeline de données Scala, en nous concentrant sur les actions GitHub, le contrôle de version et les processus de déploiement fiables.

Inclus

1 vidéo4 lectures1 devoir

Dans cette section, nous explorons l'orchestration de pipelines de données à l'aide d'outils tels que Airflow, Argo, Databricks et Azure Data Factory. Nous nous concentrons sur la conception du flux de travail, la gestion des tâches et les stratégies de mise en œuvre dans le monde réel.

Inclus

1 vidéo6 lectures1 devoir

Dans cette section, nous analysons les métriques de l'interface utilisateur de Spark afin d'identifier les problèmes de performance, d'optimiser le brassage des données et de dimensionner correctement les ressources de calcul pour un traitement efficace des données.

Inclus

1 vidéo4 lectures1 devoir

Dans cette section, nous explorons la construction de pipelines batch à l'aide de Spark et Scala, en nous concentrant sur l'architecture en médaillon, l'ingestion de données, la transformation et l'orchestration pour un traitement de données évolutif.

Inclus

1 vidéo5 lectures1 devoir

Dans cette section, nous explorons la construction de pipelines de données en temps réel à l'aide de Spark, Scala et Kafka pour les applications IoT. Les concepts clés incluent l'ingestion de données, la transformation et la conception de la couche de service.

Inclus

1 vidéo4 lectures1 devoir

Instructeur

Packt - Course Instructors
Packt
1 946 Cours569 983 apprenants

Offert par

Packt

En savoir plus sur Gestion des données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions