Was ist eine Datenpipeline in diesem Kurs?

In diesem Kurs ist eine Datenpipeline ein zusammenhängender Prozess, mit dem Daten von ihren Quellen über Aufbereitungsschritte in eine nutzbare Form gebracht werden. Der Schwerpunkt liegt auf dem Verständnis der Hauptbestandteile dieses Workflows, wie ETL ihn unterstützt und wie er in ein modernes Datenökosystem passt.

Wann würden Sie eine Datenpipeline verwenden?

Eine Datenpipeline wird verwendet, wenn Daten auf wiederholbare Weise gesammelt, aufbereitet und verschoben werden müssen, anstatt als einmalige Aufgaben behandelt zu werden. In diesem Kurs geht es um Situationen mit mehreren Datenquellen, regelmäßigen Aktualisierungen oder größeren Datenmengen, die einen einheitlichen Arbeitsablauf erfordern.

Wie fügt sich eine Datenpipeline in einen umfassenderen Arbeitsablauf ein?

Eine Datenpipeline verbindet die früheren Phasen der Datenerfassung mit den späteren Phasen, in denen die Daten gespeichert, umgewandelt und verwendet werden. Der Kurs ordnet Pipelines in ein breiteres Datenökosystem ein und zeigt, wie ETL in diesen verbundenen Prozess passt.

Wie unterscheidet sich eine Datenpipeline von der Verarbeitung von Daten in einzelnen manuellen Schritten?

Eine Datenpipeline ist ein zusammenhängender Arbeitsablauf mit definierten Phasen, während einzelne manuelle Schritte ohne dieselbe Struktur oder Kontinuität nacheinander abgearbeitet werden. In diesem Kurs werden Pipelines als eine Möglichkeit vorgestellt, Datenbewegungen und -umwandlungen in einem wiederholbaren Prozess zu organisieren.

Benötigen Sie irgendwelche Voraussetzungen, um sich mit Datenpipelines vertraut zu machen?

Ein grundlegendes Verständnis von Programmierkonzepten ist hilfreich, und eine gewisse Vertrautheit mit Datenbanksystemen kann das Verstehen des Materials erleichtern. Der Kurs ist für Anfänger geeignet und setzt keine Vorkenntnisse in Spark voraus.

Welche Werkzeuge, Plattformen oder Methoden werden in diesem Kurs verwendet?

Der Kurs führt in ETL als wichtigste Datenverarbeitungsmethode und Apache Spark als die wichtigste Plattform für die Arbeit mit Big Data ein. Er gibt auch einen Überblick über die grundlegenden Tools und Technologien, die zum Aufbau und zur Verwaltung von Datenpipelines verwendet werden.

Welche konkreten Aufgaben werden Sie in diesem Kurs üben oder erledigen?

Sie werden Komponenten des Datenökosystems und der Pipeline identifizieren, ETL-Phasen untersuchen und allgemeine Big-Data-Herausforderungen erkunden. Sie werden auch die Auswahl grundlegender Tools vergleichen und einführende Spark-Konzepte verwenden, um skalierbare Daten-Workflows zu durchdenken.

Entwicklung von Datenökosystemen: Pipelines, ETL, Spark

Dieser Kurs ist Teil von Spezialisierung „Aufbau intelligenter Daten-Pipelines: SQL, Spark, Kafka & GenAI“

Dozenten: Soheil Haddadi

Bei enthalten

Mehr erfahren

1 Modul

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

10 Bewertungen

Stufe Anfänger

Empfohlene Erfahrung

3 Stunden zu vervollständigen

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

1 Modul

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

10 Bewertungen

Stufe Anfänger

Empfohlene Erfahrung

3 Stunden zu vervollständigen

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

Identifizierung und Beschreibung der Komponenten und der Bedeutung von Datenökosystemen.
Verstehen der grundlegenden Struktur und Funktion von Datenpipelines.
Die Schritte des Extrahieren, Transformieren, Laden (ETL) Workflows und ihre Rolle bei der Datenverarbeitung zu erkennen.
Verschaffen Sie sich eine Einführung in Big Data und die Anwendung von Apache Spark.

Kompetenzen, die Sie erwerben

Kategorie: Datenfluss
Kategorie: Daten-Pipelines
Kategorie: Integration von Daten
Kategorie: Datenverarbeitung
Kategorie: Große Daten
Kategorie: Datenverwaltung
Kategorie: Extrahieren, Transformieren, Laden

Werkzeuge, die Sie lernen werden

Kategorie: Apache Spark

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

3 Zuweisungen¹

KI-bewertet siehe Haftungsausschluss

Unterrichtet in Englisch

91%

of learners achieved a positive career outcome

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung „Aufbau intelligenter Daten-Pipelines: SQL, Spark, Kafka & GenAI“

Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 1 Modul

Dieser Kurs soll Ihnen ein grundlegendes Verständnis dafür vermitteln, wie moderne Datenökosysteme funktionieren. Von Datenpipelines über ETL-Prozesse bis hin zur Verarbeitung von Big Data mit Apache Spark lernen Sie die wesentlichen Tools, Techniken und Technologien kennen, die die Entscheidungsfindung in der heutigen datengesteuerten Welt bestimmen. Egal, ob Sie ein angehender Data Engineer sind oder sich für die Mechanismen der Datenverarbeitung interessieren, dieser Kurs legt den Grundstein für Ihre Reise in das aufregende Feld des Data Engineering. Dieser Kurs ist ideal für angehende Data Engineers, Softwareentwickler, Datenbankadministratoren und IT-Profis, die ihre Fähigkeiten in der Datenverarbeitung erweitern möchten. Darüber hinaus können Analysten und Geschäftsleute, die sich für Datentechnologien interessieren, mit diesem Kurs ihr Verständnis für die grundlegenden Prozesse hinter Datenökosystemen und Big Data verbessern. Die Teilnehmer sollten ein allgemeines Interesse an Daten und ein grundlegendes Verständnis für Programmierkonzepte mitbringen. Vertrautheit mit Datenbanksystemen ist hilfreich, aber vorherige Erfahrung mit Spark ist nicht erforderlich. Ein Interesse an Big Data und Data Analytics wird Ihre Lernerfahrung während des Kurses bereichern. Am Ende dieses Kurses werden die Teilnehmer in der Lage sein, die Komponenten und die Bedeutung von Datenökosystemen zu identifizieren, die Struktur und Funktion von Datenpipelines zu verstehen und die entscheidenden Schritte in ETL-Workflows zu erkennen. Darüber hinaus erhalten Sie eine Einführung in die Handhabung von Big Data mit Apache Spark und dessen Anwendungen bei der Verarbeitung großer Datenmengen.

Moduldetails

Dieser Kurs dient als Einführungskurs mit dem Ziel, die Komplexität von Datenökosystemen zu enträtseln. Er ist auf Personen zugeschnitten, die am Anfang ihrer Data-Engineering-Reise stehen. Der Schwerpunkt liegt auf der Erstellung, Verwaltung und Optimierung von Datenpipelines, den Grundlagen von ETL-Workflows (Extrahieren, Transformieren, Laden) und einer Einführung in die Big Data-Verarbeitung mit Apache Spark.

Das ist alles enthalten

12 Videos4 Lektüren3 Aufgaben

12 VideosInsgesamt 61 Minuten

Einführung in den Kurs und Treffen mit dem Kursleiter2 Minuten
Erläuterung der Rolle von Datenökosystemen5 Minuten
Identifizierung von Datenquellen und Designprinzipien6 Minuten
Anwendung von Tools und Technologien für Datenpipelines4 Minuten
Prüfen von ETL-Prinzipien (Extrahieren, Transformieren, Laden)6 Minuten
Identifizierung von Tools und Technologien für das Extrahieren, Transformieren, Laden (ETL)5 Minuten
Prüfung von Big Data-Herausforderungen und -Lösungen6 Minuten
Entschlüsselung von Apache Spark und seinen Funktionen7 Minuten
Anwendung von Erkenntnissen zur Nutzung von Spark8 Minuten
Analyse des Entwurfs skalierbarer Datenlösungen mit Spark5 Minuten
ETL-Workflows mit Spark implementieren5 Minuten
Glückwünsche und kontinuierliche Lernreise1 Minute

4 LektürenInsgesamt 20 Minuten

Willkommen zum Kurs: Kursübersicht5 Minuten
Die entscheidende Rolle der Data Engineers: Datenmanagement und -analyse5 Minuten
Maximierung des WERTES für Unternehmen mit ETL für Big Data5 Minuten
Erste Schritte mit PySpark und Big Data-Verarbeitung5 Minuten