Les pipelines de données relèvent généralement de l'un des paradigmes suivants : Extraction et Charge (EL), Extraction, Chargement et Transformation (ELT) ou Extraction, Transformation et Chargement (ETL). Ce cours décrit quel paradigme doit être utilisé et quand pour les données Lot. En outre, ce cours couvre plusieurs technologies sur Google Cloud pour la transformation des données, notamment BigQuery, l'exécution de Spark sur Dataproc, les graphes de pipeline dans Cloud Data Fusion et le traitement des données sans serveur avec Dataflow. Les apprenants acquièrent une expérience pratique de la construction de composants de pipeline de données sur Google Cloud à l'aide de Qwiklabs.



Construire des pipelines de données par lots sur Google Cloud
Ce cours fait partie de plusieurs programmes.

Instructeur : Google Cloud Training
49 428 déjà inscrits
Inclus avec
(1,710 avis)
Ce que vous apprendrez
Examiner les différentes méthodes de chargement des données : EL, ELT et ETL et quand les utiliser
Exécuter Hadoop sur Dataproc, tirer parti du stockage dans le cloud et optimiser les travaux de Dataproc
Construisez vos pipelines de traitement de données en cours d'utilisation
Gestion des données avec Data Fusion et Cloud Composer
Compétences que vous acquerrez
- Catégorie : Transformation de données
- Catégorie : Intégration de données
- Catégorie : Migration de données
- Catégorie : Flux de données
- Catégorie : Pipelines de données
- Catégorie : Big Data
- Catégorie : Apache Hadoop
- Catégorie : Traitement des données
- Catégorie : Google Cloud Platform
- Catégorie : Extraction, transformation, chargement (ETL)
- Catégorie : Apache Spark
Détails à connaître

Ajouter à votre profil LinkedIn
5 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable

Il y a 4 modules dans ce cours
Vous apprendrez le rôle essentiel d'un Ingénieur de données dans le développement et la maintenance des pipelines de données par lots, comprendrez leurs composants de base et leur cycle de vie, et analyserez les défis courants dans le traitement des données par lots. Vous identifierez également les principaux services Google Cloud qui permettent de relever ces défis.
Inclus
1 devoir2 plugins
Vous concevrez des pipelines de données par lots évolutifs pour l'ingestion et la transformation de données en grand volume. Vous optimiserez également les tâches de traitement par lots pour obtenir un débit élevé et un bon rapport coût-efficacité à l'aide de diverses techniques de gestion des ressources et de réglage des performances.
Inclus
1 devoir2 éléments d'application7 plugins
Vous développerez des règles de validation des données et une logique de nettoyage pour assurer la qualité des données au sein des pipelines batch. Vous mettrez également en œuvre des stratégies pour gérer l'évolution des schémas et effectuer la déduplication des données dans les grands ensembles de données.
Inclus
1 devoir1 élément d'application6 plugins
Vous orchestrerez des flux de travail complexes de pipeline de données par lots pour une planification et un suivi efficaces. Vous mettrez également en œuvre une gestion robuste des erreurs, une surveillance et une observabilité pour les pipelines de données par lots.
Inclus
2 devoirs1 élément d'application6 plugins
Obtenez un certificat professionnel
Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.
Instructeur

Offert par
En savoir plus sur Cloud Computing

Google Cloud

Google Cloud
Statut : Essai gratuit
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?




Avis des étudiants
1 710 avis
- 5 stars
65,96 %
- 4 stars
25,73 %
- 3 stars
6,02 %
- 2 stars
1,46 %
- 1 star
0,81 %
Affichage de 3 sur 1710
Révisé le 27 mai 2020
A great course to help understand the various wonderful options Google Cloud has to offer to move on-premise Hadoop workload to Google Cloud Platform to leverage scalability of clusters.
Révisé le 19 mai 2020
Great course teaching how to build batch pipelines through GCP technologies, and showing cool tools for data wrangling and analysis
Révisé le 18 juin 2020
Excellent course with appropriate explanation on cloud data fusion, data composer, data proc and cloud data-flow. Must learn course for all aspiring Big Data Engineers.

Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
Oui, vous pouvez visionner la première vidéo et le syllabus avant de vous inscrire. Vous devez acheter le cours pour accéder au contenu qui n'est pas inclus dans l'aperçu.
Si vous décidez de vous inscrire au cours avant la date de début de la session, vous aurez accès à toutes les vidéos et à toutes les lectures du cours. Vous pourrez soumettre vos travaux dès le début de la session.
Une fois que vous vous serez inscrit et que votre session aura commencé, vous aurez accès à toutes les vidéos et autres ressources, y compris les lectures et le forum de discussion du cours. Vous pourrez consulter et soumettre des évaluations pratiques, et effectuer les devoirs notés requis pour obtenir une note et un certificat de cours.
Plus de questions
Aide financière disponible,


