Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.
Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable
Il y a un module dans ce cours
Ce cours est conçu pour vous fournir une compréhension fondamentale du fonctionnement des écosystèmes de données modernes. Des pipelines de données aux processus ETL, en passant par le traitement des Big data à l'aide d'Apache Spark, vous explorerez les outils, les techniques et les technologies essentiels qui favorisent la prise de décision dans le monde actuel axé sur les données. Que vous soyez un ingénieur de données en herbe ou une personne intéressée par la mécanique du traitement des données, ce cours jettera les bases de votre voyage dans le domaine passionnant de l'ingénierie des données. Ce cours est idéal pour les ingénieurs de données en herbe, les développeurs de logiciels, les administrateurs de bases de données et les professionnels de l'informatique qui cherchent à élargir leurs compétences en matière de manipulation et de traitement des données. En outre, les analystes et les professionnels des affaires intéressés par les technologies de données trouveront le cours bénéfique pour améliorer leur compréhension des processus fondamentaux derrière les écosystèmes de données et le Big data. Les participants doivent avoir un intérêt général pour les données et une compréhension de base des concepts de programmation. Une familiarité avec les systèmes de base de données sera utile, mais une expérience préalable avec Spark n'est pas nécessaire. Un intérêt pour le Big data et l'analytique des données enrichira votre expérience d'apprentissage tout au long du cours. À la fin de ce cours, les participants seront en mesure d'identifier les composants et l'importance des écosystèmes de données, de comprendre la structure et la fonction des pipelines de données et de reconnaître les étapes critiques impliquées dans les flux de travail ETL. En outre, vous acquerrez des connaissances introductives sur le traitement des Big data avec Apache Spark et ses applications dans le traitement des données à grande échelle.
Ce cours est un cours d'introduction visant à démêler les complexités des écosystèmes de données. Il est adapté aux individus au début de leur parcours d'ingénierie des données, mettant l'accent sur la construction, la gestion et l'optimisation des pipelines de données, les éléments essentiels des flux de travail ETL (Extraction, Transformation, Chargement), et une introduction au traitement des big data avec Apache Spark.
Inclus
12 vidéos4 lectures3 devoirs
Afficher les informations sur le contenu du module
12 vidéos•Total 61 minutes
Introduction au cours et rencontre avec le formateur•2 minutes
Explication du rôle des écosystèmes de données•5 minutes
Identification des sources de données et des principes de conception•6 minutes
Application d'outils et de technologies pour les pipelines de données•4 minutes
Examen des principes de l'ETL•6 minutes
Identifier les outils et les technologies pour l'ETL•5 minutes
Examen des défis et des solutions en matière de Big data•6 minutes
Décoder Apache Spark et ses fonctionnalités•7 minutes
Application des connaissances pour l'utilisation de Spark•8 minutes
Analyser le design de données évolutives avec Spark•5 minutes
Mise en œuvre de flux de travail ETL avec Spark•5 minutes
Félicitations et parcours d'apprentissage continu•1 minute
4 lectures•Total 20 minutes
Bienvenue au cours : Aperçu du cours•5 minutes
Le rôle crucial des ingénieurs de données : Gestion des données et Analyse des données•5 minutes
Maximiser la valeur de l'entreprise grâce à l'ETL pour le Big data•5 minutes
Premiers pas avec PySpark et le traitement des Big data•5 minutes
3 devoirs•Total 80 minutes
Ingénieur de l'Écosystème des données : Pipelines, ETL, Spark•20 minutes
Solutions d'ingénierie de données (Big data)•30 minutes
Mise en œuvre et conception d'Apache Spark•30 minutes
Obtenez un certificat professionnel
Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.
Coursera rassemble un réseau diversifié d'experts en la matière qui ont démontré leur expertise grâce à leur expérience professionnelle dans l'industrie ou à leur solide formation universitaire. Ces instructeurs conçoivent et enseignent des cours qui permettent aux apprenants du monde entier d'acquérir des compétences pratiques et utiles à leur carrière.
OK
En savoir plus sur Analyse des données
RecommandéCertificats ProfessionnelsSpécialisationsEn rapport
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Qu'est-ce qu'un pipeline de données dans ce cours ?
Dans ce cours, un pipeline de données est un processus connecté permettant de déplacer des données de leurs sources à travers des étapes de préparation vers une forme utilisable. L'accent est mis sur la compréhension des principales parties de ce flux de travail, sur la manière dont l'ETL le prend en charge et sur la façon dont il s'intègre dans un écosystème de données moderne.
Quand utiliseriez-vous un pipeline de données ?
Vous utilisez un pipeline de données lorsque les données doivent être collectées, préparées et déplacées de manière répétée au lieu d'être traitées comme des tâches ponctuelles. Dans le cadre de ce cours, il s'agit notamment de situations avec des sources de données multiples, des mises à jour régulières ou des volumes de données plus importants qui nécessitent un flux de travail cohérent.
Comment un pipeline de données s'intègre-t-il dans un flux de travail plus large ?
Un pipeline de données relie les premières étapes de la collecte des données aux étapes ultérieures où ces données sont stockées, transformées et utilisées. Le cours situe les pipelines dans un écosystème de données plus large et montre comment l'ETL s'inscrit dans ce processus connecté.
En quoi un pipeline de données diffère-t-il du traitement des données par étapes manuelles distinctes ?
Un pipeline de données est un flux de travail connecté avec des étapes définies, alors que les étapes manuelles séparées sont traitées une par une sans la même structure ou continuité. Dans ce cours, les pipelines sont présentés comme un moyen d'organiser le mouvement et la transformation des données en un processus reproductible.
Faut-il des prérequis avant d'apprendre les pipelines de données ?
Une compréhension de base des concepts de programmation est utile, et une certaine familiarité avec les systèmes de base de données peut rendre le matériel plus facile à suivre. Le cours est de niveau débutant et ne présume pas d'une expérience préalable de Spark.
Quels sont les outils, les plateformes ou les méthodes utilisés dans ce cours ?
Le cours présente l'ETL comme la principale méthode de traitement des données et Apache Spark comme la principale plateforme nommée pour travailler avec les big data. Il passe également en revue les outils et technologies de base utilisés pour construire et gérer les pipelines de données.
Quelles sont les tâches spécifiques que vous allez pratiquer ou accomplir dans le cadre de ce cours ?
Vous identifierez les composants de l'écosystème de données et du pipeline, examinerez les étapes de l'ETL et explorerez les défis communs du Big Data. Vous comparerez également les choix d'outils de base et utiliserez des concepts d'introduction à Spark pour réfléchir à des flux de données évolutifs.