Le cours Analytique des Big data propose une plongée en profondeur dans les technologies, les outils et les techniques utilisés pour traiter et analyser les données à grande échelle. Les apprenants exploreront les écosystèmes Hadoop et Spark, en acquérant une expérience pratique avec des composants essentiels tels que Hadoop Distributed File System (HDFS), MapReduce, Pig et Hive. Le cours couvre également les bases de données relationnelles (SQL) et non relationnelles (NoSQL), aidant les apprenants à comprendre les contextes appropriés pour chaque type de stockage de données. Un accent important est mis sur Apache Spark, connu pour ses capacités de traitement de données en mémoire à grande vitesse, ce qui est vital pour le traitement des applications Big data. Les apprenants travailleront également sur des exercices du monde réel, y compris la mise en œuvre et le déploiement d'une application d'apprentissage automatique qui traite les données en continu sur le cloud. Conçu pour les professionnels ayant une expérience de l'analyse prédictive, du SQL de base et de la programmation Python, ce cours dote les apprenants de compétences pratiques pour gérer les données caractérisées par un volume, une vitesse et une variété élevés. À la fin du cours, les participants seront en mesure de tirer des informations exploitables du Big data et de les appliquer dans des contextes professionnels, contribuant ainsi à une meilleure prise de décision et à un avantage concurrentiel dans des environnements axés sur les données.

Cela se termine bientôt : Obtenez des compétences de niveau supérieur avec Coursera Plus pour 199 $ (régulièrement 399 $). Économisez maintenant.

Expérience recommandée
Ce que vous apprendrez
Acquérir une compréhension approfondie des écosystèmes Hadoop et Spark pour la gestion des données volumineuses. Se familiariser avec des outils tels que Hive et Pig pour interroger de grands ensembles de données.
Compétences que vous acquerrez
- Catégorie : Informatique distribuée
- Catégorie : Apache Hadoop
- Catégorie : PySpark
- Catégorie : Données en temps réel
- Catégorie : Traitement des données
- Catégorie : Apache Spark
- Catégorie : Entreposage de données
- Catégorie : Bases de données
- Catégorie : Cloud Computing
- Catégorie : Big Data
- Catégorie : Apprentissage automatique appliqué
- Catégorie : Langage de requête
- Catégorie : Langages de script
- Catégorie : Data mining
- Catégorie : NoSQL
- Catégorie : Apache Hive
Détails à connaître

Ajouter à votre profil LinkedIn
16 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Il y a 11 modules dans ce cours
Bienvenue au cours sur l'analytique des données (Big data) ! À la fin de ce cours, vous développerez une compréhension des différentes technologies associées à Hadoop et à l'écosystème d'outils et de technologies Spark. Vous obtiendrez une expérience pratique en travaillant avec les composants de base d'Hadoop tels que MapReduce et Hadoop Distributed File System (HDFS). Vous apprendrez à écrire des scripts Pig et des requêtes Hive et à extraire des données stockées à travers les clusters Hadoop. Vous vous familiariserez également avec les bases de données relationnelles (SQL) et non relationnelles (NoSQL) et discuterez des scénarios dans lesquels l'une est préférée à l'autre pour le stockage des données. Vous aurez également un aperçu de l'écosystème Spark, qui permet d'exécuter très rapidement des tâches sur des clusters, ce qui donne lieu à plusieurs applications émergentes. Vous apprendrez également un exemple pratique de mise en œuvre et de déploiement d'une application d'apprentissage automatique qui traite les données en continu sur le cloud. Il s'agit d'un cours de niveau avancé, destiné aux apprenants ayant une expérience de l'utilisation d'outils et de techniques prédictives, une expérience de l'écriture de requêtes de base en Langage de requête structuré (SQL), et une compréhension de la programmation Python. Les connaissances acquises dans le cadre de ce cours vous aideront à faire carrière en tant qu'analyste commercial. Vous acquerrez des compétences pour tirer des enseignements des données qui ont des caractéristiques de haute vélocité, de volume et de variété. Les données présentant de telles caractéristiques sont appelées Big data et sont de plus en plus utilisées par les organisations pour obtenir un avantage concurrentiel et prendre des décisions. Dans ce module, vous découvrirez les applications Big data et les différents composants de l'écosystème Hadoop. Le module aborde également le paradigme MapReduce qui facilite le traitement distribué des données. Vous aurez également un aperçu de HDFS et de son utilisation pour le stockage des fichiers. Des exemples pratiques sont fournis en cours d'utilisation de Hortonworks Data Platform Sandbox, qui peut être installé sur un ordinateur Windows/Mac avec au moins 8 Go de RAM disponible.
Inclus
13 vidéos4 lectures2 devoirs1 sujet de discussion
Cette évaluation est un quiz noté basé sur le module couvert par cette semaine.
Inclus
1 devoir
Dans ce module, vous découvrirez le langage de script Hive et son utilisation pour l'extraction de données à partir de clusters Hadoop. Hive fournit un dialecte SQL appelé Langage de requête Hive (abrégé HiveQL ou simplement HQL) pour interroger les données stockées dans un cluster Hadoop. Hive est plus adapté aux applications d'entrepôt de données, lorsque des données relativement statiques sont analysées, que des temps de réponse rapides ne sont pas nécessaires et que les données ne changent pas rapidement. Hive permet aux développeurs de porter plus facilement les applications basées sur SQL vers Hadoop, par rapport à d'autres langages et outils Hadoop. Comme tous les dialectes SQL d'usage courant, il n'est pas entièrement conforme à une révision particulière de la norme ANSI SQL. Il est peut-être le plus proche du dialecte de MySQL, mais avec des différences significatives. Hive prend en charge plusieurs tailles de types entiers et à virgule flottante, un type booléen et des chaînes de caractères de longueur arbitraire. Enfin, en prenant un Ensemble de données du monde réel, vous le chargerez dans l'environnement Ambari pour l'analyser à l'aide de HDFS et HQL. Vous suivrez le processus de création de tables, de chargement de données et d'analyse à l'aide d'un Langage de requête Hive.
Inclus
9 vidéos2 lectures2 devoirs1 sujet de discussion
Cette évaluation est un quiz gradué basé sur les modules couverts cette semaine
Inclus
1 devoir
Dans ce module, vous découvrirez le langage de requête Pig Latin et la manière dont vous pouvez l'exploiter pour interroger les Big data sur les clusters Hadoop. Vous découvrirez également les différents types de données et commandes disponibles dans le langage Pig Latin et comment ils peuvent être utilisés pour définir et manipuler des données dans l'écosystème Hadoop. En outre, vous serez à travailler sur un exemple pratique d'un ensemble de données publiquement disponibles pour exécuter des scripts Pig Latin pour l'analyse des données.
Inclus
7 vidéos2 lectures2 devoirs
Dans ce module, vous serez initié à la nécessité des bases de données NoSQL. Vous ferez également connaissance avec HBase, une base de données NoSQL, et son rôle dans l'écosystème Hadoop. Vous découvrirez le théorème CAP et la manière dont il affecte les compromis entre le choix des différentes options de bases de données NoSQL disponibles sur Hadoop. Vous découvrirez également en détail la cohérence, la disponibilité et la tolérance aux partitions de la Manipulation des données et la manière dont elles affectent notre choix de technologie pour accéder aux données et les manipuler sur Hadoop. Enfin, vous aurez un aperçu d'autres solutions NoSQL émergentes basées sur le cloud.
Inclus
8 vidéos2 lectures2 devoirs1 sujet de discussion
Cette évaluation est un quiz gradué basé sur les modules couverts cette semaine.
Inclus
1 devoir
Dans ce module, vous serez initié à la populaire plateforme Apache Spark pour le traitement des Big data. Vous explorerez les composants clés d'Apache Spark qui offrent des avantages significatifs en matière de calcul distribué. Vous serez également initié aux datastores distribués résilients (RDD) et aux DataFrames Spark. En outre, vous serez initié à Spark SQL et Spark Streaming.
Inclus
11 vidéos4 lectures2 devoirs1 sujet de discussion
Cette évaluation est un quiz noté basé sur le module couvert par cette semaine.
Inclus
1 devoir
Dans ce module, vous apprendrez à connaître MLlib, qui est utilisé pour faire des prédictions sur de grands ensembles de données qui nécessitent un traitement distribué. Vous travaillerez sur des tâches de régression et de classification pour de grands ensembles de données. Ensuite, un exercice pratique avec des données en streaming à partir de l'API twitter est mis en œuvre. Il s'agit d'une application de streaming prédictif pour montrer aux participants un scénario big data de bout en bout.
Inclus
8 vidéos3 lectures2 devoirs
Vidéo de synthèse du cours
Inclus
1 vidéo
Préparer un diplôme
Ce site cours fait partie du (des) programme(s) diplômant(s) suivant(s) proposé(s) par O.P. Jindal Global University. Si vous êtes admis et que vous vous inscrivez, les cours que vous avez suivis peuvent compter pour l'apprentissage de votre diplôme et vos progrès peuvent être transférés avec vous.¹
Instructeur

Offert par
En savoir plus sur Analyse des Données
Statut : Essai gratuit
Statut : Essai gratuit
Statut : Essai gratuit
Statut : PrévisualisationAlibaba Cloud Academy
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?





Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Lorsque vous achetez un certificat, vous avez accès à tous les supports de cours, y compris les devoirs notés. Une fois le cours terminé, votre certificat électronique sera ajouté à votre page de réalisations - à partir de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.
Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien de demande sur la page de description.
Plus de questions
Aide financière disponible,

