Qu'est-ce qu'un pipeline de données dans ce cours ?

Dans ce cours, un pipeline de données est un processus connecté permettant de déplacer des données de leurs sources à travers des étapes de préparation vers une forme utilisable. L'accent est mis sur la compréhension des principales parties de ce flux de travail, sur la manière dont l'ETL le prend en charge et sur la façon dont il s'intègre dans un écosystème de données moderne.

Quand utiliseriez-vous un pipeline de données ?

Vous utilisez un pipeline de données lorsque les données doivent être collectées, préparées et déplacées de manière répétée au lieu d'être traitées comme des tâches ponctuelles. Dans le cadre de ce cours, il s'agit notamment de situations avec des sources de données multiples, des mises à jour régulières ou des volumes de données plus importants qui nécessitent un flux de travail cohérent.

Comment un pipeline de données s'intègre-t-il dans un flux de travail plus large ?

Un pipeline de données relie les premières étapes de la collecte des données aux étapes ultérieures où ces données sont stockées, transformées et utilisées. Le cours situe les pipelines dans un écosystème de données plus large et montre comment l'ETL s'inscrit dans ce processus connecté.

En quoi un pipeline de données diffère-t-il du traitement des données par étapes manuelles distinctes ?

Un pipeline de données est un flux de travail connecté avec des étapes définies, alors que les étapes manuelles séparées sont traitées une par une sans la même structure ou continuité. Dans ce cours, les pipelines sont présentés comme un moyen d'organiser le mouvement et la transformation des données en un processus reproductible.

Faut-il des prérequis avant d'apprendre les pipelines de données ?

Une compréhension de base des concepts de programmation est utile, et une certaine familiarité avec les systèmes de base de données peut rendre le matériel plus facile à suivre. Le cours est de niveau débutant et ne présume pas d'une expérience préalable de Spark.

Quels sont les outils, les plateformes ou les méthodes utilisés dans ce cours ?

Le cours présente l'ETL comme la principale méthode de traitement des données et Apache Spark comme la principale plateforme nommée pour travailler avec les big data. Il passe également en revue les outils et technologies de base utilisés pour construire et gérer les pipelines de données.

Quelles sont les tâches spécifiques que vous allez pratiquer ou accomplir dans le cadre de ce cours ?

Vous identifierez les composants de l'écosystème de données et du pipeline, examinerez les étapes de l'ETL et explorerez les défis communs du Big Data. Vous comparerez également les choix d'outils de base et utiliserez des concepts d'introduction à Spark pour réfléchir à des flux de données évolutifs.

Ingénieur de l'Écosystème des données : Pipelines, ETL, Spark

Ce cours fait partie de Spécialisation "Construire des pipelines de données plus intelligents : SQL, Spark, Kafka & GenAI"

Instructeurs : Soheil Haddadi

Inclus avec

1 module

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

10 avis

niveau Débutant

Expérience recommandée

3 heures à compléter

Planning flexible

Apprenez à votre propre rythme

1 module

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

10 avis

niveau Débutant

Expérience recommandée

3 heures à compléter

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Identifier et décrire les composantes et l'importance des écosystèmes de données.
Comprendre la structure et la fonction de base des pipelines de données.
Reconnaître les étapes des flux de travail ETL et leur rôle dans le traitement des données.
Acquérir une connaissance introductive du big data et de l'application d'Apache Spark.

Compétences que vous acquerrez

Catégorie : Flux de données
Catégorie : Pipelines de données
Catégorie : Intégration des données
Catégorie : Traitement des données
Catégorie : Big Data
Catégorie : Gestion des données
Catégorie : Extraire, transformer, charger

Outils que vous découvrirez

Catégorie : Apache Spark

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

3 affectations¹

Noté par l'IA voir l'avis de non-responsabilité

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Construire des pipelines de données plus intelligents : SQL, Spark, Kafka & GenAI"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a un module dans ce cours

Ce cours est conçu pour vous fournir une compréhension fondamentale du fonctionnement des écosystèmes de données modernes. Des pipelines de données aux processus ETL, en passant par le traitement des Big data à l'aide d'Apache Spark, vous explorerez les outils, les techniques et les technologies essentiels qui favorisent la prise de décision dans le monde actuel axé sur les données. Que vous soyez un ingénieur de données en herbe ou une personne intéressée par la mécanique du traitement des données, ce cours jettera les bases de votre voyage dans le domaine passionnant de l'ingénierie des données. Ce cours est idéal pour les ingénieurs de données en herbe, les développeurs de logiciels, les administrateurs de bases de données et les professionnels de l'informatique qui cherchent à élargir leurs compétences en matière de manipulation et de traitement des données. En outre, les analystes et les professionnels des affaires intéressés par les technologies de données trouveront le cours bénéfique pour améliorer leur compréhension des processus fondamentaux derrière les écosystèmes de données et le Big data. Les participants doivent avoir un intérêt général pour les données et une compréhension de base des concepts de programmation. Une familiarité avec les systèmes de base de données sera utile, mais une expérience préalable avec Spark n'est pas nécessaire. Un intérêt pour le Big data et l'analytique des données enrichira votre expérience d'apprentissage tout au long du cours. À la fin de ce cours, les participants seront en mesure d'identifier les composants et l'importance des écosystèmes de données, de comprendre la structure et la fonction des pipelines de données et de reconnaître les étapes critiques impliquées dans les flux de travail ETL. En outre, vous acquerrez des connaissances introductives sur le traitement des Big data avec Apache Spark et ses applications dans le traitement des données à grande échelle.

Détails du module

Ce cours est un cours d'introduction visant à démêler les complexités des écosystèmes de données. Il est adapté aux individus au début de leur parcours d'ingénierie des données, mettant l'accent sur la construction, la gestion et l'optimisation des pipelines de données, les éléments essentiels des flux de travail ETL (Extraction, Transformation, Chargement), et une introduction au traitement des big data avec Apache Spark.

Inclus

12 vidéos4 lectures3 devoirs

12 vidéosTotal 61 minutes

Introduction au cours et rencontre avec le formateur2 minutes
Explication du rôle des écosystèmes de données5 minutes
Identification des sources de données et des principes de conception6 minutes
Application d'outils et de technologies pour les pipelines de données4 minutes
Examen des principes de l'ETL6 minutes
Identifier les outils et les technologies pour l'ETL5 minutes
Examen des défis et des solutions en matière de Big data6 minutes
Décoder Apache Spark et ses fonctionnalités7 minutes
Application des connaissances pour l'utilisation de Spark8 minutes
Analyser le design de données évolutives avec Spark5 minutes
Mise en œuvre de flux de travail ETL avec Spark5 minutes
Félicitations et parcours d'apprentissage continu1 minute

4 lecturesTotal 20 minutes

Bienvenue au cours : Aperçu du cours5 minutes
Le rôle crucial des ingénieurs de données : Gestion des données et Analyse des données5 minutes
Maximiser la valeur de l'entreprise grâce à l'ETL pour le Big data5 minutes
Premiers pas avec PySpark et le traitement des Big data5 minutes

3 devoirsTotal 80 minutes

Ingénieur de l'Écosystème des données : Pipelines, ETL, Spark20 minutes
Solutions d'ingénierie de données (Big data)30 minutes
Mise en œuvre et conception d'Apache Spark30 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.