Qu'est-ce que je recevrai si je m'abonne à ce certificat ?

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours du certificat et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - à partir de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Introduction au Big Data avec Spark et Hadoop

Obtenez l'une de nos meilleures offres avec Coursera Plus pour 199 $ (habituellement 399 $). Économisez maintenant.

Introduction au Big Data avec Spark et Hadoop

Ce cours fait partie de plusieurs programmes.

Instructeurs : Aije Egwaikhide

76 738 déjà inscrits

Inclus avec En savoir plus

Demander à Coursera

7 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

484 avis

niveau Intermédiaire

Expérience recommandée

Planning flexible

2 semaines à 10 heures une semaine

Apprenez à votre propre rythme

92%

La plupart des étudiants ont apprécié ce cours

7 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

484 avis

niveau Intermédiaire

Expérience recommandée

Planning flexible

2 semaines à 10 heures une semaine

Apprenez à votre propre rythme

92%

La plupart des étudiants ont apprécié ce cours

Ce que vous apprendrez

Expliquer l'impact du big data, y compris les cas d'utilisation, les outils et les méthodes de traitement.
Décrire l'architecture, l'écosystème, les pratiques et les applications liées à l'utilisateur d'Apache Hadoop, y compris Hive, HDFS, HBase, Spark et MapReduce.
Appliquer les bases de la programmation Spark, y compris les bases de la programmation parallèle pour les DataFrames, les ensembles de données et Spark SQL.
Utilisez les RDD et les ensembles de données de Spark, optimisez Spark SQL à l'aide de Catalyst et Tungsten, et utilisez les options de l'environnement de développement et d'exécution de Spark.

Compétences que vous acquerrez

Catégorie : Transformation des données
Catégorie : Informatique distribuée
Catégorie : Technologie Open Source
Catégorie : Big Data
Catégorie : Débogage
Catégorie : Optimisation des performances
Catégorie : Traitement des données
Catégorie : Environnement de développement
Catégorie : Évolutivité

Outils que vous découvrirez

Catégorie : Apache Hive
Catégorie : Apache Spark
Catégorie : PySpark
Catégorie : Docker (Logiciel)
Catégorie : Apache Hadoop
Catégorie : Kubernetes
Catégorie : IBM Cloud

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

14 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de

Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 7 modules dans ce cours

Ce cours IBM autodidacte vous apprendra tout sur les big data ! Vous vous familiariserez avec les caractéristiques des big data et leur application dans l'analyse des big data. Vous acquerrez également une expérience pratique avec des outils de traitement des big data comme Apache Hadoop et Apache Spark.

Bernard Marr définit le big data comme la trace numérique que nous générons dans cette ère numérique. Vous commencerez le cours en comprenant ce qu'est le big data et en explorant comment les informations issues du big data peuvent être exploitées pour une variété de cas d'utilisation. Vous découvrirez également comment le big data utilise des technologies telles que le traitement parallèle, la mise à l'échelle et le parallélisme des données. Ensuite, vous découvrirez Hadoop, un cadre open-source qui permet le traitement distribué de données volumineuses, ainsi que son écosystème. Vous découvrirez des applications importantes qui vont de pair avec Hadoop, comme le système de fichiers distribués (HDFS), MapReduce et HBase. Vous vous familiariserez avec Hive, un logiciel d'entrepôt de données qui fournit une interface de type SQL pour interroger et manipuler efficacement de grands ensembles de données. Vous découvrirez ensuite Apache Spark, un moteur de traitement open-source qui offre aux utilisateurs de nouvelles façons de stocker et d'utiliser les données volumineuses. Dans ce cours, vous découvrirez comment tirer parti de Spark pour obtenir des informations fiables. Le cours fournit une vue d'ensemble de la plateforme, en passant en revue les composants qui constituent Apache Spark. Vous découvrirez les DataFrames et effectuerez des opérations de base sur les DataFrames et travaillerez avec SparkSQL. Vous découvrirez comment Spark traite et surveille les requêtes que votre application soumet et comment vous pouvez suivre le travail en utilisant l'interface utilisateur de l'application Spark. Ce cours comporte plusieurs travaux pratiques pour vous aider à appliquer et à mettre en pratique les concepts que vous apprenez. Vous effectuerez des travaux pratiques sur Hadoop et Spark en utilisant divers outils et technologies, y compris Docker, Kubernetes, Python et Jupyter Notebooks.

Dans ce module, vous commencerez à acquérir des connaissances sur les Big Data en vous appuyant sur la définition la plus récente des Big Data. Vous explorerez l'impact des Big Data sur les tâches personnelles quotidiennes et les transactions commerciales à l'aide de cas d'utilisation des Big Data. Vous apprendrez également comment le Big Data utilise le traitement parallèle, la mise à l'échelle et le parallélisme des données. En outre, vous explorerez les outils de Big Data couramment utilisés et expliquerez le rôle de l'open-source dans le Big Data. Enfin, vous irez au-delà du battage médiatique et explorerez d'autres points de vue sur les Big Data.

Inclus

8 vidéos1 lecture2 devoirs2 plugins

8 vidéosTotal 48 minutes

Introduction au cours6 minutes
Qu'est-ce que le Big Data ?8 minutes
L'impact du Big Data6 minutes
Traitement parallèle, mise à l'échelle et parallélisme des données8 minutes
Outils et écosystème Big Data5 minutes
Open Source et Big Data6 minutes
Au-delà du battage médiatique5 minutes
Cas d'utilisation des Big Data6 minutes

1 lectureTotal 2 minutes

Résumé et points forts : Introduction au Big Data2 minutes

2 devoirsTotal 41 minutes

Quiz pratique : Introduction au Big Data14 minutes
Quiz noté : Qu'est-ce que le Big Data ?27 minutes

2 pluginsTotal 27 minutes

Introduction aux technologies émergentes du Big data15 minutes
Module 1 Glossaire : Qu'est-ce que le Big Data ?12 minutes

Dans ce module, vous acquerrez une compréhension fondamentale de l'architecture, de l'écosystème et des pratiques d'Apache Hadoop, ainsi que des applications couramment utilisées, notamment le système de fichiers distribués (HDFS), MapReduce, Hive et HBase. Vous acquerrez également des compétences pratiques lors de travaux pratiques au cours desquels vous interrogerez les données ajoutées à l'aide de Hive, lancerez un cluster Hadoop à un seul nœud à l'aide de Docker et exécuterez des tâches MapReduce.

Inclus

6 vidéos1 lecture2 devoirs3 éléments d'application2 plugins

6 vidéosTotal 37 minutes

Introduction à Hadoop7 minutes
Introduction à MapReduce6 minutes
L'écosystème Hadoop4 minutes
HDFS8 minutes
HIVE6 minutes
HBASE6 minutes

1 lectureTotal 2 minutes

Résumé et points forts : Introduction à Hadoop2 minutes

2 devoirsTotal 36 minutes

Quiz pratique : Introduction à Hadoop12 minutes
Quiz noté : Introduction à l'écosystème Hadoop24 minutes

3 éléments d'applicationTotal 60 minutes

Laboratoire pratique : Premiers pas avec Hive20 minutes
Laboratoire pratique : Hadoop MapReduce20 minutes
Travaux pratiques : Cluster Hadoop (optionnel)20 minutes

2 pluginsTotal 30 minutes

Aide-mémoire : Introduction à l'écosystème Hadoop15 minutes
Module 2 Glossaire : Introduction à l'écosystème Hadoop15 minutes

Dans ce module, vous porterez votre attention sur la populaire plateforme Apache Spark, où vous explorerez les attributs et les avantages d'Apache Spark et de l'informatique distribuée. Vous obtiendrez des informations clés sur la programmation fonctionnelle et les fonctions Lambda. Vous explorerez également les RDD (Resilient Distributed Datasets), la programmation parallèle, la résilience dans Apache Spark, et ferez le lien entre les RDD et la programmation parallèle avec Apache Spark. Ensuite, vous plongerez dans les composants supplémentaires d'Apache Spark et apprendrez comment Apache Spark évolue avec les Big Data. Travailler avec les Big Data nécessite de travailler avec des requêtes, y compris des requêtes structurées utilisant SQL. Vous apprendrez également les fonctions, les parties et les avantages de Spark SQL et des requêtes DataFrame, et découvrirez comment les DataFrames fonctionnent avec Spark SQL.

Inclus

5 vidéos1 lecture2 devoirs2 éléments d'application2 plugins

5 vidéosTotal 24 minutes

Pourquoi utiliser Apache Spark ?5 minutes
Les bases de la programmation fonctionnelle6 minutes
Programmation parallèle à l'aide d'ensembles de données distribuées résilientes5 minutes
Scale out / Parallélisme de données dans Apache Spark4 minutes
Dataframes et SparkSQL4 minutes

1 lectureTotal 2 minutes

Résumé et points forts : Introduction à Apache Spark2 minutes

2 devoirsTotal 31 minutes

Quiz pratique : Introduction à Apache Spark10 minutes
Quiz noté : Apache Spark21 minutes

2 éléments d'applicationTotal 75 minutes

Labo pratique : Premiers pas avec Pyspark et Pandas60 minutes
Laboratoire pratique : Premiers pas avec Spark en utilisant Python15 minutes

2 pluginsTotal 30 minutes

Aide-mémoire : Apache Spark15 minutes
Module 3 Glossaire : Apache Spark15 minutes

Dans ce module, vous découvrirez les Resilient Distributed Datasets (RDD), leur utilisation dans Apache Spark, ainsi que les transformations et actions RDD. Vous comparerez l'utilisation des datasets avec la dernière abstraction de données de Spark, les DataFrames. Vous apprendrez à identifier et à appliquer les opérations de base des DataFrames. Vous explorerez l'optimisation SQL d'Apache Spark et apprendrez comment Spark SQL et l'optimisation de la mémoire bénéficient de l'utilisation de Catalyst et Tungsten. Enfin, vous renforcerez vos compétences avec des travaux pratiques guidés pour créer une vue de table et appliquer des techniques d'agrégation de données.

Inclus

5 vidéos1 lecture2 devoirs2 éléments d'application4 plugins

5 vidéosTotal 26 minutes

Les RDD dans la programmation parallèle et Spark5 minutes
Cadres de données et ensembles de données5 minutes
Catalyseur et tungstène5 minutes
ETL avec DataFrames6 minutes
Utilisation de SparkSQL dans le monde réel4 minutes

1 lectureTotal 2 minutes

Résumé et points forts : Introduction aux DataFrames et à Spark SQL2 minutes

2 devoirsTotal 31 minutes

Quiz pratique : Introduction aux DataFrames et à Spark SQL10 minutes
Quiz noté : DataFrames et Spark SQL21 minutes

2 éléments d'applicationTotal 30 minutes

Laboratoire pratique : Introduction aux DataFrames15 minutes
Laboratoire pratique : Introduction à SparkSQL15 minutes

4 pluginsTotal 60 minutes

Lecture : Schéma défini par l'utilisateur (UDS) pour DSL et SQL10 minutes
Lecture : Transformations courantes et techniques d'optimisation dans Spark20 minutes
Aide-mémoire : DataFrames et Spark SQL15 minutes
Module 4 Glossaire : DataFrames et Spark SQL15 minutes

Dans ce module, vous découvrirez comment Spark traite les requêtes que votre application soumet et comment vous pouvez suivre le travail à l'aide de l'interface utilisateur de l'application Spark. Comme le travail de l'application Spark se fait sur le cluster, vous devez être capable d'identifier les Apache Cluster Managers, leurs composants et leurs avantages. Vous saurez également comment vous connecter à chaque gestionnaire de cluster et quand et comment vous voudrez peut-être configurer une instance Spark locale et autonome. Ensuite, vous apprendrez à soumettre une application Apache Spark, y compris l'utilisation de l'interface unifiée de Spark, "spark-submit", et vous vous familiariserez avec les options et les dépendances. Vous décrirez et appliquerez également les options de soumission des applications, identifierez les techniques de gestion des dépendances des applications externes et énumérerez les avantages de Spark Shell. Vous examinerez également les pratiques recommandées pour les options de configuration statique et dynamique de Spark et effectuerez des travaux pratiques pour utiliser Apache Spark sur IBM Cloud et exécuter Spark sur Kubernetes.

Inclus

6 vidéos2 lectures3 devoirs2 éléments d'application4 plugins

6 vidéosTotal 33 minutes

Architecture Apache Spark6 minutes
Vue d'ensemble des modes de cluster d'Apache Spark6 minutes
Comment exécuter une application Apache Spark7 minutes
Utiliser Apache Spark sur IBM Cloud4 minutes
Configuration d'Apache Spark6 minutes
Exécuter Spark sur Kubernetes5 minutes

2 lecturesTotal 4 minutes

Résumé et points forts : Architecture de Spark2 minutes
Résumé et points forts : Environnements d'exécution Spark2 minutes

3 devoirsTotal 33 minutes

Quiz pratique : Architecture Spark6 minutes
Quiz pratique : Environnements d'exécution Spark6 minutes
Quiz noté : Options de l'environnement de développement et d'exécution21 minutes

2 éléments d'applicationTotal 80 minutes

Labo pratique : Soumettre des applications Apache Spark60 minutes
Laboratoire pratique : Apache Spark sur Kubernetes20 minutes

4 pluginsTotal 40 minutes

Environnements Spark - Vue d'ensemble et options5 minutes
Comment configurer vos propres environnements Spark (optionnel)5 minutes
Aide-mémoire : Options de l'environnement de développement et d'exécution15 minutes
Module 5 Glossaire : Options de l'environnement de développement et d'exécution15 minutes

Les plateformes et les applications nécessitent une surveillance et un réglage pour gérer les problèmes qui surviennent inévitablement. Dans ce module, vous apprendrez à connecter le serveur web de l'interface utilisateur Apache Spark et à utiliser ce même serveur web pour gérer les processus de l'application. Vous identifierez également les problèmes courants des applications Apache Spark et apprendrez à déboguer les problèmes en utilisant l'interface utilisateur de l'application et en localisant les fichiers journaux correspondants. En outre, vous découvrirez et acquerrez des connaissances concrètes sur la façon dont Spark gère la mémoire et les ressources du processeur grâce à un laboratoire pratique.

Inclus

5 vidéos1 lecture2 devoirs1 élément d'application3 plugins

5 vidéosTotal 30 minutes

L'interface utilisateur d'Apache Spark6 minutes
Suivi de l'état d'avancement de la demande8 minutes
Déboguer les problèmes des applications Apache Spark6 minutes
Comprendre les ressources de la mémoire6 minutes
Comprendre les ressources du processeur5 minutes

1 lectureTotal 2 minutes

Résumé et points forts : Introduction à la surveillance et à l'optimisation2 minutes

2 devoirsTotal 31 minutes

Quiz pratique : Introduction à la surveillance et à l'optimisation10 minutes
Quiz noté : Surveillance et réglage21 minutes

1 élément d'applicationTotal 30 minutes

Laboratoire pratique : Surveillance et optimisation des performances30 minutes

3 pluginsTotal 35 minutes

[Méthodes d'ingestion de données par lots5 minutes
Aide-mémoire : Surveillance et optimisation15 minutes
Module 6 Glossaire : Surveillance et réglage15 minutes

Dans ce module, vous effectuerez un laboratoire pratique où vous explorerez deux aspects critiques du traitement des données à l'aide de Spark : travailler avec des RDD (Resilient Distributed Datasets) et construire des DataFrames à partir de données JSON. Vous appliquerez également diverses transformations et actions sur les RDD et les DataFrames afin d'obtenir des informations et de manipuler les données de manière efficace. En outre, vous appliquerez vos connaissances dans un projet final où vous créerez un DataFrame en chargeant des données à partir d'un fichier CSV et en appliquant des transformations et des actions à l'aide de Spark SQL. Enfin, vous serez évalué sur la base de ce que vous aurez appris pendant le cours.

Inclus

3 lectures1 devoir2 éléments d'application2 plugins

3 lecturesTotal 5 minutes

Instructions pour l'évaluation finale1 minute
Félicitations et prochaines étapes2 minutes
Remerciements de l'équipe du cours2 minutes

1 devoirTotal 100 minutes

Évaluation finale100 minutes

2 éléments d'applicationTotal 120 minutes

Projet pratique : Traitement des données à l'aide de Spark60 minutes
Projet final : Analyse de données à l'aide de Spark60 minutes

2 pluginsTotal 35 minutes

Aperçu du projet final15 minutes
Glossaire : Introduction au Big Data avec Spark et Hadoop20 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Évaluations de l’enseignant

(121 évaluations)

Aije Egwaikhide

IBM

6 Cours805 792 apprenants

Romeo Kienzler

IBM

10 Cours843 561 apprenants

Rav Ahuja

IBM

52 Cours5 155 080 apprenants

Offert par

IBM

En savoir plus sur Gestion des données

University of Pittsburgh
Big Data Processing with Hadoop and Spark
Cours
Statut : Essai gratuit
Packt
Apache Spark with Scala – Hands-On with Big Data!
Cours
Statut : Essai gratuit
EDUCBA
Apache Spark: Apply & Evaluate Big Data Workflows
Cours
Statut : Essai gratuit
Pearson
Hadoop and Spark Fundamentals: Unit 1
Cours
Statut : Essai gratuit

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

5 stars
66,52 %
4 stars
19 %
3 stars
8,05 %
2 stars
2,89 %
1 star
3,51 %

Affichage de 3 sur 484

Révisé le 30 janv. 2024

That is a well packaged course allow you crate bıg data applıcatıon.

Révisé le 10 janv. 2025

I found the course to be a great foundation for understanding how to work with large datasets using Hadoop and Spark, with clear explanations and practical examples.

Révisé le 7 juin 2024

A very very indepth couse by IBM. As someone who studies most courses on Coursera, I think IBM offers an in depth course so far

Voir plus d’avis

Foire Aux Questions

Ce cours offre un aperçu complet de l'évolution des frameworks de calcul distribué. Vous découvrirez Apache Hadoop et les principaux composants de son écosystème, notamment le système de fichiers distribué Hadoop (HDFS) pour le stockage, MapReduce pour le traitement par lots et Hive pour l'exécution de requêtes de type SQL sur de grands ensembles de données. Vous comparerez ensuite ces technologies à Apache Spark, et découvrirez comment ses capacités de calcul en mémoire et ses modèles d'exécution distribuée offrent des gains de performances considérables par rapport aux anciens systèmes de traitement basés sur disque.

Vous maîtriserez les abstractions de données fondamentales de Spark pour gérer la programmation parallèle à grande échelle. Le programme vous guide à travers les ensembles de données distribués résilients (RDD), en vous apprenant à exécuter des transformations de bas niveau (telles que les opérations « map » et « filter ») et des actions (telles que les opérations « count » et « collect »). Vous passerez ensuite à l'abstraction de données moderne de Spark, les DataFrames, et découvrirez comment exécuter des requêtes structurées à l'aide de Spark SQL et gérer des agrégations de données complexes sur des ensembles de données JSON et CSV.

L'un des points forts de ce programme est de découvrir le fonctionnement interne d'un cluster Big Data. Vous explorerez comment Spark SQL optimise les plans d'exécution et l'utilisation de la mémoire à l'aide de l'optimiseur Catalyst et du moteur d'exécution Tungsten. De plus, vous acquerrez des compétences pratiques en gestion de clusters : vous apprendrez à conteneuriser Spark à l’aide de Docker et de Kubernetes, à soumettre des tâches via l’interface unifiée spark-submit, et à résoudre les goulots d’étranglement liés à la mémoire et au processeur à l’aide de l’interface utilisateur en temps réel de l’application Spark.

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Plus de questions

Visitez le Centre d'Aide pour les Étudiants

Aide financière disponible,