Ce cours s'adresse aux programmeurs débutants ou aux professionnels qui souhaitent comprendre les principaux outils utilisés pour traiter et analyser les données volumineuses (big data). Sans expérience préalable, vous aurez l'opportunité de travailler sur des exemples pratiques avec les frameworks Hadoop et Spark, deux des plus répandus dans l'industrie. Vous serez à l'aise pour expliquer les composants spécifiques et les processus de base de l'architecture Hadoop, de la pile logicielle et de l'environnement d'exécution. Dans les missions, vous serez guidé dans la façon dont les scientifiques de données appliquent les concepts importants et les techniques telles que Map-Reduce qui sont utilisés pour résoudre les problèmes fondamentaux dans le big data. Vous vous sentirez capable d'avoir des conversations sur le big data et le processus d'analyse des données.
Bienvenue dans le premier module du cours Big Data Platform. Ce premier module vous donnera un aperçu de l'engouement pour le Big Data, de ses technologies, de ses opportunités et de ses défis. Nous approfondirons la pile Hadoop et les outils et technologies associés aux solutions Big Data.
Inclus
7 vidéos4 lectures1 devoir
Afficher les informations sur le contenu du module
7 vidéos•Total 53 minutes
Les bases de la pile Hadoop•4 minutes
Le cadre de travail Apache : Modules de base•4 minutes
Système de fichiers distribués Hadoop (HDFS)•6 minutes
Le "zoo" Hadoop•5 minutes
Principaux composants de l'écosystème Hadoop•11 minutes
Exploration de la VM Cloudera : pratique, partie 1•16 minutes
Exploration de la VM Cloudera : pratique, partie 2•6 minutes
4 lectures•Total 40 minutes
Ecosystème Apache Hadoop•10 minutes
Diapositives de la leçon 1 (PDF)•10 minutes
Exigences matérielles et logicielles•10 minutes
Diapositives de la leçon 2 - Visite de la VM Cloudera•10 minutes
1 devoir•Total 30 minutes
Pile Hadoop de base•30 minutes
Introduction à la pile Hadoop
Module 2•3 heures à terminer
Détails du module
Dans ce module, nous examinerons en détail la pile Hadoop, depuis les composants de base HDFS jusqu'aux cadres d'exécution des applications, en passant par les langages et les services.
Inclus
10 vidéos6 lectures3 devoirs
Afficher les informations sur le contenu du module
10 vidéos•Total 70 minutes
Aperçu de la pile Hadoop•4 minutes
Le système de fichiers distribués Hadoop (HDFS) et HDFS2•9 minutes
Cadre MapReduce et YARN•8 minutes
L'environnement d'exécution Hadoop•5 minutes
YARN, Tez et Spark•11 minutes
Ordonnancement des ressources Hadoop•6 minutes
Applications basées sur Hadoop•4 minutes
Introduction à Apache Pig•8 minutes
Introduction à Apache HIVE•7 minutes
Introduction à Apache HBASE•7 minutes
6 lectures•Total 60 minutes
Notions de base sur Hadoop - Leçon 1 Diapositives•10 minutes
Leçon 3 : Aperçu des applications basées sur Hadoop - Toutes les diapositives•10 minutes
Liste de commandes pour les diapositives d'applications•10 minutes
Conseils pour gérer les erreurs de connexion aux services•10 minutes
Références pour les applications•10 minutes
3 devoirs•Total 74 minutes
Aperçu de la pile Hadoop•30 minutes
Environnement d'exécution Hadoop•14 minutes
Applications Hadoop•30 minutes
Introduction au système de fichiers distribués Hadoop (HDFS)
Module 3•3 heures à terminer
Détails du module
Dans ce module, nous allons examiner en détail le système de fichiers distribués Hadoop (HDFS). Nous couvrirons les principaux objectifs de conception de HDFS, comprendrons le processus de lecture/écriture sur HDFS, les principaux paramètres de configuration qui peuvent être réglés pour contrôler la performance et la robustesse de HDFS, et nous aurons un aperçu des différentes façons dont vous pouvez accéder aux données sur HDFS.
Inclus
9 vidéos5 lectures3 devoirs
Afficher les informations sur le contenu du module
9 vidéos•Total 58 minutes
Vue d'ensemble de l'architecture HDFS•5 minutes
L'enveloppe de performance de HDFS•6 minutes
Processus de lecture/écriture dans HDFS•4 minutes
Paramètres de réglage de HDFS•6 minutes
Performance et robustesse de HDFS•10 minutes
Vue d'ensemble de l'accès à HDFS, des API et des applications•5 minutes
Commandes HDFS•9 minutes
API Java native pour HDFS•5 minutes
API REST pour HDFS•9 minutes
5 lectures•Total 50 minutes
Leçon 1 : Introduction à HDFS - Diapositives•10 minutes
Références HDFS•10 minutes
Leçon 2 : Performance et optimisation de HDFS - Diapositives•10 minutes
Performances, réglages et robustesse de HDFS•30 minutes
Accès à HDFS•30 minutes
Introduction à Map/Reduce
Module 4•7 heures à terminer
Détails du module
Ce module présente les concepts et la pratique de Map/Reduce. Vous découvrirez l'idée générale de Map/Reduce et vous apprendrez à concevoir, implémenter et exécuter des tâches dans le cadre de Map/Reduce. Vous apprendrez également les compromis dans map/reduce et comment cela motive d'autres outils.
Inclus
9 vidéos3 lectures1 devoir2 devoirs de programmation
Afficher les informations sur le contenu du module
9 vidéos•Total 27 minutes
Introduction à Map/Reduce•2 minutes
Le cadre Map/Reduce•3 minutes
Un exemple MapReduce : Wordcount en détail•5 minutes
MapReduce : Exemples et principes•2 minutes
Exemple MapReduce : Tendance du nombre de mots•2 minutes
Exemple MapReduce : Joindre des données•4 minutes
Exemple MapReduce : Multiplication vectorielle•3 minutes
Coûts de calcul de la multiplication vectorielle•4 minutes
Résumé de MapReduce•2 minutes
3 lectures•Total 30 minutes
Leçon 1 : Introduction à MapReduce - Diapositives•10 minutes
Note sur le débogage des programmes map/reduce.•10 minutes
Leçon 2 : Exemples et principes MapReduce - Diapositives•10 minutes
1 devoir•Total 30 minutes
Révision de la leçon 1•30 minutes
2 devoirs de programmation•Total 360 minutes
Exécuter Wordcount avec Hadoop streaming, en utilisant du code Python•180 minutes
Joindre les données•180 minutes
Spark
Module 5•9 heures à terminer
Détails du module
Bienvenue au module 5, Introduction à Spark, cette semaine nous allons nous concentrer sur le cadre de calcul en cluster Apache Spark, un concurrent important de Hadoop MapReduce dans l'arène du Big Data. Spark offre de grands avantages en termes de performances par rapport à Hadoop MapReduce, en particulier pour les algorithmes itératifs, grâce à la mise en cache en mémoire. De plus, Spark permet aux scientifiques de données d'écrire plus facilement leur pipeline d'analyse en Python et Scala, et fournit même des shells interactifs pour jouer en direct avec les données.
Inclus
10 vidéos4 lectures3 devoirs2 devoirs de programmation
Afficher les informations sur le contenu du module
10 vidéos•Total 70 minutes
Introduction à Apache Spark•8 minutes
Architecture de Spark•8 minutes
Ensembles de données distribués et résilients•11 minutes
Transformations Spark•10 minutes
Grandes transformations•11 minutes
Ordonnanceur à graphe acyclique dirigé (DAG)•9 minutes
Actions dans Spark•3 minutes
Mise en cache de la mémoire dans Spark•6 minutes
Variables de diffusion•3 minutes
Accumulateurs•2 minutes
4 lectures•Total 40 minutes
Configurer PySpark sur la VM Cloudera•10 minutes
Leçon 1 : Introduction à Apache Spark - Diapositives•10 minutes
Leçon 2 : RDD et transformations - Diapositives•10 minutes
Leçon 3 : Planification, actions, mise en cache - Diapositives•10 minutes
3 devoirs•Total 90 minutes
Spark Leçon 1•30 minutes
Spark Leçon 2•30 minutes
Spark Leçon 3•30 minutes
2 devoirs de programmation•Total 360 minutes
Jointure simple dans Spark•180 minutes
Jointure avancée dans Spark•180 minutes
Instructeurs
Évaluations de l’enseignant
Évaluations de l’enseignant
Nous avons demandé à tous les étudiants de fournir des commentaires sur nos enseignants au sujet de la qualité de leur pédagogie.
L'université de San Diego est un centre universitaire et un moteur économique, reconnu comme l'une des 10 meilleures universités publiques par U.S. News and World Report. L'innovation est au cœur de ce que nous sommes et de ce que nous faisons. Ici, les étudiants apprennent que le savoir ne s'acquiert pas seulement en classe - la vie est leur laboratoire.
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Avis des étudiants
4.0
3 325 avis
5 stars
45,33 %
4 stars
28,08 %
3 stars
12,37 %
2 stars
6,77 %
1 star
7,43 %
Affichage de 3 sur 3325
M
MT
4·
Révisé le 5 oct. 2016
Covers the basics well, but lacks depth and integration between the weeks. E.g. it would be nice to see how to use Spark + HDFS together and what the efficiency considerations are.
S
SS
5·
Révisé le 18 janv. 2017
This is a great introductory course for entry level Hadoop learner. I hope more content can be added into this course. This course overlaps with other big data courses offered by USDC.
D
DZ
4·
Révisé le 21 déc. 2015
I don't think the answers of quiz are accurate. Some answers may be true in some cases, but not in others. Difficult to choose, even review the videos and do some google.
Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Qu'est-ce que je recevrai si je souscris à cette Specializations ?
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.
Une aide financière est-elle disponible ?
Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.