O.P. Jindal Global University
Analyse des données (Big Data)

Cela se termine bientôt : Obtenez des compétences de niveau supérieur avec Coursera Plus pour 199 $ (régulièrement 399 $). Économisez maintenant.

O.P. Jindal Global University

Analyse des données (Big Data)

Dr. Mohit Bhatnagar

Instructeur : Dr. Mohit Bhatnagar

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Débutant

Expérience recommandée

3 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Préparer un diplôme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Débutant

Expérience recommandée

3 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Préparer un diplôme

Ce que vous apprendrez

  • Acquérir une compréhension approfondie des écosystèmes Hadoop et Spark pour la gestion des données volumineuses. Se familiariser avec des outils tels que Hive et Pig pour interroger de grands ensembles de données.

Compétences que vous acquerrez

  • Catégorie : Informatique distribuée
  • Catégorie : Apache Hadoop
  • Catégorie : PySpark
  • Catégorie : Données en temps réel
  • Catégorie : Traitement des données
  • Catégorie : Apache Spark
  • Catégorie : Entreposage de données
  • Catégorie : Bases de données
  • Catégorie : Cloud Computing
  • Catégorie : Big Data
  • Catégorie : Apprentissage automatique appliqué
  • Catégorie : Langage de requête
  • Catégorie : Langages de script
  • Catégorie : Data mining
  • Catégorie : NoSQL
  • Catégorie : Apache Hive

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

16 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Il y a 11 modules dans ce cours

Bienvenue au cours sur l'analytique des données (Big data) ! À la fin de ce cours, vous développerez une compréhension des différentes technologies associées à Hadoop et à l'écosystème d'outils et de technologies Spark. Vous obtiendrez une expérience pratique en travaillant avec les composants de base d'Hadoop tels que MapReduce et Hadoop Distributed File System (HDFS). Vous apprendrez à écrire des scripts Pig et des requêtes Hive et à extraire des données stockées à travers les clusters Hadoop. Vous vous familiariserez également avec les bases de données relationnelles (SQL) et non relationnelles (NoSQL) et discuterez des scénarios dans lesquels l'une est préférée à l'autre pour le stockage des données. Vous aurez également un aperçu de l'écosystème Spark, qui permet d'exécuter très rapidement des tâches sur des clusters, ce qui donne lieu à plusieurs applications émergentes. Vous apprendrez également un exemple pratique de mise en œuvre et de déploiement d'une application d'apprentissage automatique qui traite les données en continu sur le cloud. Il s'agit d'un cours de niveau avancé, destiné aux apprenants ayant une expérience de l'utilisation d'outils et de techniques prédictives, une expérience de l'écriture de requêtes de base en Langage de requête structuré (SQL), et une compréhension de la programmation Python. Les connaissances acquises dans le cadre de ce cours vous aideront à faire carrière en tant qu'analyste commercial. Vous acquerrez des compétences pour tirer des enseignements des données qui ont des caractéristiques de haute vélocité, de volume et de variété. Les données présentant de telles caractéristiques sont appelées Big data et sont de plus en plus utilisées par les organisations pour obtenir un avantage concurrentiel et prendre des décisions. Dans ce module, vous découvrirez les applications Big data et les différents composants de l'écosystème Hadoop. Le module aborde également le paradigme MapReduce qui facilite le traitement distribué des données. Vous aurez également un aperçu de HDFS et de son utilisation pour le stockage des fichiers. Des exemples pratiques sont fournis en cours d'utilisation de Hortonworks Data Platform Sandbox, qui peut être installé sur un ordinateur Windows/Mac avec au moins 8 Go de RAM disponible.

Inclus

13 vidéos4 lectures2 devoirs1 sujet de discussion

Cette évaluation est un quiz noté basé sur le module couvert par cette semaine.

Inclus

1 devoir

Dans ce module, vous découvrirez le langage de script Hive et son utilisation pour l'extraction de données à partir de clusters Hadoop. Hive fournit un dialecte SQL appelé Langage de requête Hive (abrégé HiveQL ou simplement HQL) pour interroger les données stockées dans un cluster Hadoop. Hive est plus adapté aux applications d'entrepôt de données, lorsque des données relativement statiques sont analysées, que des temps de réponse rapides ne sont pas nécessaires et que les données ne changent pas rapidement. Hive permet aux développeurs de porter plus facilement les applications basées sur SQL vers Hadoop, par rapport à d'autres langages et outils Hadoop. Comme tous les dialectes SQL d'usage courant, il n'est pas entièrement conforme à une révision particulière de la norme ANSI SQL. Il est peut-être le plus proche du dialecte de MySQL, mais avec des différences significatives. Hive prend en charge plusieurs tailles de types entiers et à virgule flottante, un type booléen et des chaînes de caractères de longueur arbitraire. Enfin, en prenant un Ensemble de données du monde réel, vous le chargerez dans l'environnement Ambari pour l'analyser à l'aide de HDFS et HQL. Vous suivrez le processus de création de tables, de chargement de données et d'analyse à l'aide d'un Langage de requête Hive.

Inclus

9 vidéos2 lectures2 devoirs1 sujet de discussion

Cette évaluation est un quiz gradué basé sur les modules couverts cette semaine

Inclus

1 devoir

Dans ce module, vous découvrirez le langage de requête Pig Latin et la manière dont vous pouvez l'exploiter pour interroger les Big data sur les clusters Hadoop. Vous découvrirez également les différents types de données et commandes disponibles dans le langage Pig Latin et comment ils peuvent être utilisés pour définir et manipuler des données dans l'écosystème Hadoop. En outre, vous serez à travailler sur un exemple pratique d'un ensemble de données publiquement disponibles pour exécuter des scripts Pig Latin pour l'analyse des données.

Inclus

7 vidéos2 lectures2 devoirs

Dans ce module, vous serez initié à la nécessité des bases de données NoSQL. Vous ferez également connaissance avec HBase, une base de données NoSQL, et son rôle dans l'écosystème Hadoop. Vous découvrirez le théorème CAP et la manière dont il affecte les compromis entre le choix des différentes options de bases de données NoSQL disponibles sur Hadoop. Vous découvrirez également en détail la cohérence, la disponibilité et la tolérance aux partitions de la Manipulation des données et la manière dont elles affectent notre choix de technologie pour accéder aux données et les manipuler sur Hadoop. Enfin, vous aurez un aperçu d'autres solutions NoSQL émergentes basées sur le cloud.

Inclus

8 vidéos2 lectures2 devoirs1 sujet de discussion

Cette évaluation est un quiz gradué basé sur les modules couverts cette semaine.

Inclus

1 devoir

Dans ce module, vous serez initié à la populaire plateforme Apache Spark pour le traitement des Big data. Vous explorerez les composants clés d'Apache Spark qui offrent des avantages significatifs en matière de calcul distribué. Vous serez également initié aux datastores distribués résilients (RDD) et aux DataFrames Spark. En outre, vous serez initié à Spark SQL et Spark Streaming.

Inclus

11 vidéos4 lectures2 devoirs1 sujet de discussion

Cette évaluation est un quiz noté basé sur le module couvert par cette semaine.

Inclus

1 devoir

Dans ce module, vous apprendrez à connaître MLlib, qui est utilisé pour faire des prédictions sur de grands ensembles de données qui nécessitent un traitement distribué. Vous travaillerez sur des tâches de régression et de classification pour de grands ensembles de données. Ensuite, un exercice pratique avec des données en streaming à partir de l'API twitter est mis en œuvre. Il s'agit d'une application de streaming prédictif pour montrer aux participants un scénario big data de bout en bout.

Inclus

8 vidéos3 lectures2 devoirs

Vidéo de synthèse du cours

Inclus

1 vidéo

Préparer un diplôme

Ce site cours fait partie du (des) programme(s) diplômant(s) suivant(s) proposé(s) par O.P. Jindal Global University. Si vous êtes admis et que vous vous inscrivez, les cours que vous avez suivis peuvent compter pour l'apprentissage de votre diplôme et vos progrès peuvent être transférés avec vous.¹

 

Instructeur

Dr. Mohit Bhatnagar
O.P. Jindal Global University
5 Cours3 648 apprenants

Offert par

En savoir plus sur Analyse des Données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions