Analyse des données (Big Data)

Saisissez l'occasion de faire des économies ! Bénéficiez de 40 % de réduction sur 3 mois de Coursera Plus et d'un accès complet à des milliers de cours.

Analyse des données (Big Data)

Instructeur : Dr. Mohit Bhatnagar

Inclus avec

11 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Débutant

Expérience recommandée

3 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

Préparer un diplôme

11 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Débutant

Expérience recommandée

3 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

Préparer un diplôme

Ce que vous apprendrez

Acquérir une compréhension approfondie des écosystèmes Hadoop et Spark pour la gestion des données volumineuses. Se familiariser avec des outils tels que Hive et Pig pour interroger de grands ensembles de données.

Compétences que vous acquerrez

Catégorie : Real Time Data
Catégorie : Applied Machine Learning
Catégorie : Data Mining
Catégorie : Cloud Computing
Catégorie : Databases
Catégorie : Distributed Computing
Catégorie : Scripting Languages
Catégorie : Data Warehousing
Catégorie : Data Processing
Catégorie : Big Data

Outils que vous découvrirez

Catégorie : Apache Hive
Catégorie : PySpark
Catégorie : Apache Spark
Catégorie : Query Languages
Catégorie : Apache Hadoop
Catégorie : NoSQL

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

16 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Il y a 11 modules dans ce cours

Le cours Analytique des Big data propose une plongée en profondeur dans les technologies, les outils et les techniques utilisés pour traiter et analyser les données à grande échelle. Les apprenants exploreront les écosystèmes Hadoop et Spark, en acquérant une expérience pratique avec des composants essentiels tels que Hadoop Distributed File System (HDFS), MapReduce, Pig et Hive. Le cours couvre également les bases de données relationnelles (SQL) et non relationnelles (NoSQL), aidant les apprenants à comprendre les contextes appropriés pour chaque type de stockage de données. Un accent important est mis sur Apache Spark, connu pour ses capacités de traitement de données en mémoire à grande vitesse, ce qui est vital pour le traitement des applications Big data. Les apprenants travailleront également sur des exercices du monde réel, y compris la mise en œuvre et le déploiement d'une application d'apprentissage automatique qui traite les données en continu sur le cloud. Conçu pour les professionnels ayant une expérience de l'analyse prédictive, du SQL de base et de la programmation Python, ce cours dote les apprenants de compétences pratiques pour gérer les données caractérisées par un volume, une vitesse et une variété élevés. À la fin du cours, les participants seront en mesure de tirer des informations exploitables du Big data et de les appliquer dans des contextes professionnels, contribuant ainsi à une meilleure prise de décision et à un avantage concurrentiel dans des environnements axés sur les données.

Bienvenue au cours sur l'analytique des données (Big data) ! À la fin de ce cours, vous développerez une compréhension des différentes technologies associées à Hadoop et à l'écosystème d'outils et de technologies Spark. Vous obtiendrez une expérience pratique en travaillant avec les composants de base d'Hadoop tels que MapReduce et Hadoop Distributed File System (HDFS). Vous apprendrez à écrire des scripts Pig et des requêtes Hive et à extraire des données stockées à travers les clusters Hadoop. Vous vous familiariserez également avec les bases de données relationnelles (SQL) et non relationnelles (NoSQL) et discuterez des scénarios dans lesquels l'une est préférée à l'autre pour le stockage des données. Vous aurez également un aperçu de l'écosystème Spark, qui permet d'exécuter très rapidement des tâches sur des clusters, ce qui donne lieu à plusieurs applications émergentes. Vous apprendrez également un exemple pratique de mise en œuvre et de déploiement d'une application d'apprentissage automatique qui traite les données en continu sur le cloud. Il s'agit d'un cours de niveau avancé, destiné aux apprenants ayant une expérience de l'utilisation d'outils et de techniques prédictives, une expérience de l'écriture de requêtes de base en Langage de requête structuré (SQL), et une compréhension de la programmation Python. Les connaissances acquises dans le cadre de ce cours vous aideront à faire carrière en tant qu'analyste commercial. Vous acquerrez des compétences pour tirer des enseignements des données qui ont des caractéristiques de haute vélocité, de volume et de variété. Les données présentant de telles caractéristiques sont appelées Big data et sont de plus en plus utilisées par les organisations pour obtenir un avantage concurrentiel et prendre des décisions. Dans ce module, vous découvrirez les applications Big data et les différents composants de l'écosystème Hadoop. Le module aborde également le paradigme MapReduce qui facilite le traitement distribué des données. Vous aurez également un aperçu de HDFS et de son utilisation pour le stockage des fichiers. Des exemples pratiques sont fournis en cours d'utilisation de Hortonworks Data Platform Sandbox, qui peut être installé sur un ordinateur Windows/Mac avec au moins 8 Go de RAM disponible.

Inclus

13 vidéos4 lectures2 devoirs1 sujet de discussion

13 vidéos Total 96 minutes

Introduction au cours 2 minutes
Introduction aux Big data 7 minutes
Type de données et applications 4 minutes
La nécessité et l'évolution de Hadoop 5 minutes
L'écosystème Hadoop 7 minutes
Installation de la plateforme de données Hortonworks Sandbox (ordinateur de bureau/portable) 9 minutes
Installation de la Sandbox de Hortonworks Data Platform (Google Cloud) 15 minutes
Le système de fichiers HDFS 6 minutes
Travaux pratiques avec HDFS sur HDP Sandbox (ordinateur de bureau/portable) 10 minutes
Pratique de HDFS sur HDP Sandbox (Google Cloud) 14 minutes
Calcul distribué à l'aide de YARN 5 minutes
Introduction à MapReduce 6 minutes
Pratique de MapReduce à l'aide de Python 7 minutes

4 lectures Total 180 minutes

Lecture essentielle : Introduction au Big data 60 minutes
Lecture recommandée : Introduction à l'écosystème Hadoop 30 minutes
Lecture essentielle : Hadoop en pratique 60 minutes
Lecture recommandée : mrjob Python Library 30 minutes

2 devoirs Total 39 minutes

Introduction au Big data et à l'écosystème Hadoop 24 minutes
Pratique de Hadoop 15 minutes

1 sujet de discussion Total 20 minutes

Applications de l'Analytique des données (Big data) 20 minutes

Cette évaluation est un quiz noté basé sur le module couvert par cette semaine.

Inclus

1 devoir

Dans ce module, vous découvrirez le langage de script Hive et son utilisation pour l'extraction de données à partir de clusters Hadoop. Hive fournit un dialecte SQL appelé Langage de requête Hive (abrégé HiveQL ou simplement HQL) pour interroger les données stockées dans un cluster Hadoop. Hive est plus adapté aux applications d'entrepôt de données, lorsque des données relativement statiques sont analysées, que des temps de réponse rapides ne sont pas nécessaires et que les données ne changent pas rapidement. Hive permet aux développeurs de porter plus facilement les applications basées sur SQL vers Hadoop, par rapport à d'autres langages et outils Hadoop. Comme tous les dialectes SQL d'usage courant, il n'est pas entièrement conforme à une révision particulière de la norme ANSI SQL. Il est peut-être le plus proche du dialecte de MySQL, mais avec des différences significatives. Hive prend en charge plusieurs tailles de types entiers et à virgule flottante, un type booléen et des chaînes de caractères de longueur arbitraire. Enfin, en prenant un Ensemble de données du monde réel, vous le chargerez dans l'environnement Ambari pour l'analyser à l'aide de HDFS et HQL. Vous suivrez le processus de création de tables, de chargement de données et d'analyse à l'aide d'un Langage de requête Hive.

Inclus

9 vidéos2 lectures2 devoirs1 sujet de discussion

9 vidéos Total 67 minutes

Récapitulation des concepts de base 6 minutes
Introduction à Hive 6 minutes
Types de données Hive 6 minutes
Commandes et utilisations HQL 7 minutes
Définition et manipulation des données HiveQL 6 minutes
Premiers pas avec Hive 11 minutes
Utilisation de Hive View sur Ambari 8 minutes
Exemple de pratique sur Hive 8 minutes
Défi : pratique 9 minutes

2 lectures Total 105 minutes

Lecture essentielle : Introduction à Hive 15 minutes
Lecture essentielle : Hive en pratique 90 minutes

2 devoirs Total 30 minutes

Introduction à Hive 18 minutes
Pratique de Hive 12 minutes

1 sujet de discussion Total 15 minutes

Introduction à HIVE 15 minutes

Cette évaluation est un quiz gradué basé sur les modules couverts cette semaine

Inclus

1 devoir

Dans ce module, vous découvrirez le langage de requête Pig Latin et la manière dont vous pouvez l'exploiter pour interroger les Big data sur les clusters Hadoop. Vous découvrirez également les différents types de données et commandes disponibles dans le langage Pig Latin et comment ils peuvent être utilisés pour définir et manipuler des données dans l'écosystème Hadoop. En outre, vous serez à travailler sur un exemple pratique d'un ensemble de données publiquement disponibles pour exécuter des scripts Pig Latin pour l'analyse des données.

Inclus

7 vidéos2 lectures2 devoirs

7 vidéos Total 57 minutes

Introduction au Pig Latin 8 minutes
Types de données Pig 7 minutes
Commandes et utilisations du Pig Latin 7 minutes
Définition et Manipulation des données Pig 9 minutes
Exécution de Pig View sur Ambari 6 minutes
Exemple de vue sur les porcs 10 minutes
Le problème pratique comme défi 11 minutes

2 lectures Total 105 minutes

Lecture essentielle : Introduction au langage du cochon 15 minutes
Lecture recommandée : Pratique du cochon 90 minutes

2 devoirs Total 30 minutes

Introduction au langage Pig 24 minutes
Le cochon dans la poche 6 minutes

Dans ce module, vous serez initié à la nécessité des bases de données NoSQL. Vous ferez également connaissance avec HBase, une base de données NoSQL, et son rôle dans l'écosystème Hadoop. Vous découvrirez le théorème CAP et la manière dont il affecte les compromis entre le choix des différentes options de bases de données NoSQL disponibles sur Hadoop. Vous découvrirez également en détail la cohérence, la disponibilité et la tolérance aux partitions de la Manipulation des données et la manière dont elles affectent notre choix de technologie pour accéder aux données et les manipuler sur Hadoop. Enfin, vous aurez un aperçu d'autres solutions NoSQL émergentes basées sur le cloud.

Inclus

8 vidéos2 lectures2 devoirs1 sujet de discussion

8 vidéos Total 59 minutes

Introduction aux entrepôts de données 8 minutes
Nécessité des bases de données NoSQL 8 minutes
Théorème de la PAC 8 minutes
Choisir une base de données 8 minutes
Introduction à HBase 7 minutes
Architecture de Hbase 8 minutes
Modèle de données HBase 6 minutes
Exécution et configuration de Hbase sur Ambari et travaux pratiques avec Hbase 7 minutes

2 lectures Total 135 minutes

Lecture essentielle : Introduction aux bases de données NoSQL 45 minutes
Lecture recommandée : Pratique de HBase 90 minutes

2 devoirs Total 30 minutes

Introduction aux bases de données NoSQL 15 minutes
Pratique de HBase 15 minutes

1 sujet de discussion Total 15 minutes

Architecture de HBase 15 minutes

Cette évaluation est un quiz gradué basé sur les modules couverts cette semaine.

Inclus

1 devoir

Dans ce module, vous serez initié à la populaire plateforme Apache Spark pour le traitement des Big data. Vous explorerez les composants clés d'Apache Spark qui offrent des avantages significatifs en matière de calcul distribué. Vous serez également initié aux datastores distribués résilients (RDD) et aux DataFrames Spark. En outre, vous serez initié à Spark SQL et Spark Streaming.

Inclus

11 vidéos4 lectures2 devoirs1 sujet de discussion

11 vidéos Total 70 minutes

Le besoin de Spark 5 minutes
Historique et applications de Spark 6 minutes
L'ensemble de données distribuées résilientes (RDD) 7 minutes
Pratique de la bibliothèque PySpark en Python 8 minutes
Travailler avec Spark DataFrames et Spark SQL 5 minutes
Mise en pratique des requêtes structurées sur Spark 7 minutes
Nécessité de traiter des données en continu 5 minutes
Introduction à Spark Streaming 6 minutes
Pratique de l'API DStream 7 minutes
Diffusion en continu structurée 6 minutes
Pratique de la diffusion en continu structurée 6 minutes

4 lectures Total 360 minutes

Lecture essentielle : Introduction à Spark 180 minutes
Lecture recommandée : Démarrage rapide sur Spark 60 minutes
Lecture essentielle : Introduction à Spark Streaming 90 minutes
Lecture recommandée : Spark Structured Streaming (flux structuré) 30 minutes

2 devoirs Total 30 minutes

Introduction aux éléments constitutifs de Spark 15 minutes
Introduction à Spark Streaming 15 minutes

1 sujet de discussion Total 20 minutes

Le fenêtrage dans les flux structurés 20 minutes

Cette évaluation est un quiz noté basé sur le module couvert par cette semaine.

Inclus

1 devoir

Dans ce module, vous apprendrez à connaître MLlib, qui est utilisé pour faire des prédictions sur de grands ensembles de données qui nécessitent un traitement distribué. Vous travaillerez sur des tâches de régression et de classification pour de grands ensembles de données. Ensuite, un exercice pratique avec des données en streaming à partir de l'API twitter est mis en œuvre. Il s'agit d'une application de streaming prédictif pour montrer aux participants un scénario big data de bout en bout.

Inclus

8 vidéos3 lectures2 devoirs

8 vidéos Total 52 minutes

Introduction à MLlib 5 minutes
Algorithmes de régression en Mllib 6 minutes
Résoudre les problèmes de classification avec Mllib 6 minutes
L'analyse des sentiments en pratique 8 minutes
Introduction à Google Cloud Dataproc 5 minutes
Mise en place pratique d'un cluster sur Google Dataproc 8 minutes
Flux de données à partir de l'API de Twitter 7 minutes
Mise en pratique d'une application d'analytique en continu 7 minutes

3 lectures Total 150 minutes

Lecture essentielle : Introduction au ML sur Spark 90 minutes
Lecture recommandée : Guide des meilleures pratiques de Dataproc 30 minutes
Lecture recommandée : API Twitter v2 30 minutes

2 devoirs Total 27 minutes

Apprentissage automatique sur Spark 15 minutes
Exécuter Hadoop et Spark sur le cloud 12 minutes

Vidéo de synthèse du cours

Inclus

1 vidéo

Préparer un diplôme

Ce site cours fait partie du (des) programme(s) diplômant(s) suivant(s) proposé(s) par O.P. Jindal Global University. Si vous êtes admis et que vous vous inscrivez, les cours que vous avez suivis peuvent compter pour l'apprentissage de votre diplôme et vos progrès peuvent être transférés avec vous.¹

Instructeur

Dr. Mohit Bhatnagar

O.P. Jindal Global University

6 Cours 4 189 apprenants

Offert par

O.P. Jindal Global University

En savoir plus sur Analyse des Données

Statut : Essai gratuit
Microsoft
Data Analytics and Machine Learning for Big Data
Cours
Statut : Essai gratuit
University of Pittsburgh
Big Data Processing with Hadoop and Spark
Cours
Statut : Essai gratuit
IBM
Introduction to Big Data with Spark and Hadoop
Cours
Statut : Essai gratuit
EDUCBA
Big Data Analytics with Hive, Pig & MapReduce
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous achetez un certificat, vous avez accès à tous les supports de cours, y compris les devoirs notés. Une fois le cours terminé, votre certificat électronique sera ajouté à votre page de réalisations - à partir de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien de demande sur la page de description.

Plus de questions

Visitez le Centre d'Aide pour les Étudiants

Aide financière disponible,