One of the important topics that every data analyst should be familiar with is the distributed data processing technologies. As a data analyst, you should be able to apply different queries to your dataset to extract useful information out of it. but what if your data is so big that working with it on your local machine is not easy to be done. That is when the distributed data processing and Spark Technology will become handy. So in this project, we are going to work with pyspark module in python and we are going to use google colab environment in order to apply some queries to the dataset we have related to lastfm website which is an online music service where users can listen to different songs. This dataset is containing two csv files listening.csv and genre.csv. Also, we will learn how we can visualize our query results using matplotlib.

Data Analysis Using Pyspark
Économisez sur les compétences qui vous font briller avec 40 % de réduction sur 3 mois de Coursera Plus. Économisez maintenant

(317 avis)
Expérience recommandée
Ce que vous apprendrez
Learn how to setup the google colab for distributed data processing
Learn applying different queries to your dataset to extract useful Information
Learn how to visualize this information using matplotlib
Compétences que vous pratiquerez
- Catégorie : Data Processing
- Catégorie : Data Analysis
- Catégorie : Data Visualization
- Catégorie : Matplotlib
- Catégorie : Data Presentation
- Catégorie : Big Data
- Catégorie : Data Cleansing
- Catégorie : Distributed Computing
- Catégorie : Data Manipulation
- Catégorie : Data Management
Outils que vous utiliserez
- Catégorie : Query Languages
- Catégorie : Python Programming
- Catégorie : Apache Spark
- Catégorie : PySpark
Détails à connaître

Ajouter à votre profil LinkedIn
Disponible uniquement sur ordinateur
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Apprendre, pratiquer et appliquer des compétences prêtes à l’emploi en moins de 2 heures
- Bénéficiez d’une formation par des experts du secteur
- Gagnez en expérience pratique en effectuant des tâches professionnelles du monde réel
- Renforcez votre confiance en utilisant les outils et technologies les plus récents

À propos de ce Projet Guidé
Apprendrez étape par étape
Votre enseignant(e) vous guidera étape par étape, grâce à une vidéo en écran partagé sur votre espace de travail :
Prepare the Google Colab for distributed data processing
Mounting our Google Drive into Google Colab environment
Importing first file of our Dataset (1 Gb) into pySpark dataframe
Applying some Queries to extract useful information out of our data
Importing second file of our Dataset (3 Mb) into pySpark dataframe
Joining two dataframes and prepapre it for more advanced queries
Learn visualizing our query results using matplotlib
Expérience recommandée
Learners should be familiar with Python programming Language, Spark Technology and have a little experience working with google colab environment
5 images de projet
Instructeur

Offert par
Méthode d’apprentissage
Apprentissage pratique basé sur les compétences
Mettez en pratique de nouvelles compétences en effectuant des tâches professionnelles.
Conseils d’experts
Suivez les vidéos pré-enregistrées d’experts à l’aide d’une interface unique, divisée en deux.
Aucun téléchargement ou installation requis(e)
Accédez aux outils et aux ressources dont vous avez besoin dans un espace de travail cloud préconfiguré.
Disponible uniquement sur ordinateur de bureau
Ce Projet Guidé est conçu pour les ordinateurs portables ou de bureau disposant d’une connexion internet fiable, et non pour les appareils mobiles.
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.
Avis des étudiants
- 5 stars
62,46 %
- 4 stars
24,92 %
- 3 stars
8,51 %
- 2 stars
1,57 %
- 1 star
2,52 %
Affichage de 3 sur 317
Révisé le 29 janv. 2021
It would have been better if more foundations of Spark framework had been provided
Révisé le 14 nov. 2020
Best guided project for an introduction to the PySpark
Révisé le 2 juil. 2023
Overall good course to kick start. More basics could be covered.
Vous aimerez peut-être aussi
Statut : Essai gratuit
Statut : Essai gratuit
Statut : Essai gratuitEdureka





