IBM
Introduction to Big Data with Spark and Hadoop
IBM

Introduction to Big Data with Spark and Hadoop

Ce cours fait partie de plusieurs programmes.

Aije Egwaikhide
Romeo Kienzler
Rav Ahuja

Instructeurs : Aije Egwaikhide

55 760 déjà inscrits

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
4.4

(395 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible
Env. 19 heures
Apprenez à votre propre rythme
91%
La plupart des étudiants ont apprécié ce cours
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
4.4

(395 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible
Env. 19 heures
Apprenez à votre propre rythme
91%
La plupart des étudiants ont apprécié ce cours

Ce que vous apprendrez

  • Explain the impact of big data, including use cases, tools, and processing methods.

  • Describe Apache Hadoop architecture, ecosystem, practices, and user-related applications, including Hive, HDFS, HBase, Spark, and MapReduce.

  • Apply Spark programming basics, including parallel programming basics for DataFrames, data sets, and Spark SQL.

  • Use Spark’s RDDs and data sets, optimize Spark SQL using Catalyst and Tungsten, and use Spark’s development and runtime environment options.

Compétences que vous acquerrez

  • Catégorie : Big Data
  • Catégorie : SparkSQL
  • Catégorie : SparkML
  • Catégorie : Apache Hadoop
  • Catégorie : Apache Spark

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

14 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Emplacement réservé

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de
Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable
Emplacement réservé
Emplacement réservé

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Emplacement réservé

Il y a 7 modules dans ce cours

In this module, you’ll begin your acquisition of Big Data knowledge with the most up-to-date definition of Big Data. You’ll explore the impact of Big Data on everyday personal tasks and business transactions with Big Data Use Cases. You’ll also learn how Big Data uses parallel processing, scaling, and data parallelism. Going further, you’ll explore commonly used Big Data tools and explain the role of open-source in Big Data. Finally, you’ll go beyond the hype and explore additional Big Data viewpoints.

Inclus

8 vidéos1 lecture2 devoirs2 plugins

In this module, you'll gain a fundamental understanding of the Apache Hadoop architecture, ecosystem, practices, and commonly used applications, including Distributed File System (HDFS), MapReduce, Hive, and HBase. You’ll also gain practical skills in hands-on labs when you query the data added using Hive, launch a single-node Hadoop cluster using Docker, and run MapReduce jobs.

Inclus

6 vidéos1 lecture2 devoirs3 éléments d'application2 plugins

In this module, you’ll turn your attention to the popular Apache Spark platform, where you will explore the attributes and benefits of Apache Spark and distributed computing. You'll gain key insights about functional programming and Lambda functions. You’ll also explore Resilient Distributed Datasets (RDDs), parallel programming, resilience in Apache Spark, and relate RDDs and parallel programming with Apache Spark. Then, you’ll dive into additional Apache Spark components and learn how Apache Spark scales with Big Data. Working with Big Data signals the need for working with queries, including structured queries using SQL. You’ll also learn about the functions, parts, and benefits of Spark SQL and DataFrame queries, and discover how DataFrames work with Spark SQL.

Inclus

5 vidéos1 lecture2 devoirs2 éléments d'application2 plugins

In this module, you’ll learn about Resilient Distributed Datasets (RDDs), their uses in Apache Spark, and RDD transformations and actions. You'll compare the use of datasets with Spark's latest data abstraction, DataFrames. You'll learn to identify and apply basic DataFrame operations. You’ll explore Apache Spark SQL optimization and learn how Spark SQL and memory optimization benefit from using Catalyst and Tungsten. Finally, you’ll fortify your skills with guided hands-on lab to create a table view and apply data aggregation techniques.

Inclus

5 vidéos1 lecture2 devoirs2 éléments d'application4 plugins

In this module, you’ll explore how Spark processes the requests that your application submits and learn how you can track work using the Spark Application UI. Because Spark application work happens on the cluster, you need to be able to identify Apache Cluster Managers, their components, and benefits. You’ll also know how to connect with each cluster manager and how and when you might want to set up a local, standalone Spark instance. Next, you’ll learn about Apache Spark application submission, including the use of Spark’s unified interface, “spark-submit,” and learn about options and dependencies. You’ll also describe and apply options for submitting applications, identify external application dependency management techniques, and list Spark Shell benefits. You’ll also look at recommended practices for Spark's static and dynamic configuration options and perform hands-on labs to use Apache Spark on IBM Cloud and run Spark on Kubernetes.

Inclus

6 vidéos2 lectures3 devoirs2 éléments d'application4 plugins

Platforms and applications require monitoring and tuning to manage issues that inevitably happen. In this module, you'll learn about connecting the Apache Spark user interface web server and using the same UI web server to manage application processes. You’ll also identify common Apache Spark application issues and learn about debugging issues using the application UI and locating related log files. Further, you’ll discover and gain real-world knowledge about how Spark manages memory and processor resources using the hands-on lab.

Inclus

5 vidéos1 lecture2 devoirs1 élément d'application3 plugins

In this module, you’ll perform a practice lab where you’ll explore two critical aspects of data processing using Spark: working with Resilient Distributed Datasets (RDDs) and constructing DataFrames from JSON data. You will also apply various transformations and actions on both RDDs and DataFrames to gain insights and manipulate the data effectively. Further, you’ll apply your knowledge in a final project where you will create a DataFrame by loading data from a CSV file and applying transformations and actions using Spark SQL. Finally, you’ll be assessed based on your learning from the course.

Inclus

3 lectures1 devoir2 éléments d'application2 plugins

Instructeurs

Évaluations de l’enseignant
4.3 (95 évaluations)
Aije Egwaikhide
IBM
6 Cours655 705 apprenants
Romeo Kienzler
IBM
10 Cours704 270 apprenants
Rav Ahuja
IBM
53 Cours3 090 905 apprenants

Offert par

IBM

Recommandé si vous êtes intéressé(e) par Data Management

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

Affichage de 3 sur 395

4.4

395 avis

  • 5 stars

    64,81 %

  • 4 stars

    20 %

  • 3 stars

    8,10 %

  • 2 stars

    3,29 %

  • 1 star

    3,79 %

JO
5

Révisé le 7 juin 2024

CS
5

Révisé le 27 oct. 2022

JS
4

Révisé le 1 mai 2022

Emplacement réservé

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions