Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.
Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage
In diesem Kurs gibt es 1 Modul
Dieser Kurs soll Ihnen ein grundlegendes Verständnis dafür vermitteln, wie moderne Datenökosysteme funktionieren. Von Datenpipelines über ETL-Prozesse bis hin zur Verarbeitung von Big Data mit Apache Spark lernen Sie die wesentlichen Tools, Techniken und Technologien kennen, die die Entscheidungsfindung in der heutigen datengesteuerten Welt bestimmen. Egal, ob Sie ein angehender Data Engineer sind oder sich für die Mechanismen der Datenverarbeitung interessieren, dieser Kurs legt den Grundstein für Ihre Reise in das aufregende Feld des Data Engineering. Dieser Kurs ist ideal für angehende Data Engineers, Softwareentwickler, Datenbankadministratoren und IT-Profis, die ihre Fähigkeiten in der Datenverarbeitung erweitern möchten. Darüber hinaus können Analysten und Geschäftsleute, die sich für Datentechnologien interessieren, mit diesem Kurs ihr Verständnis für die grundlegenden Prozesse hinter Datenökosystemen und Big Data verbessern. Die Teilnehmer sollten ein allgemeines Interesse an Daten und ein grundlegendes Verständnis für Programmierkonzepte mitbringen. Vertrautheit mit Datenbanksystemen ist hilfreich, aber vorherige Erfahrung mit Spark ist nicht erforderlich. Ein Interesse an Big Data und Data Analytics wird Ihre Lernerfahrung während des Kurses bereichern. Am Ende dieses Kurses werden die Teilnehmer in der Lage sein, die Komponenten und die Bedeutung von Datenökosystemen zu identifizieren, die Struktur und Funktion von Datenpipelines zu verstehen und die entscheidenden Schritte in ETL-Workflows zu erkennen. Darüber hinaus erhalten Sie eine Einführung in die Handhabung von Big Data mit Apache Spark und dessen Anwendungen bei der Verarbeitung großer Datenmengen.
Dieser Kurs dient als Einführungskurs mit dem Ziel, die Komplexität von Datenökosystemen zu enträtseln. Er ist auf Personen zugeschnitten, die am Anfang ihrer Data-Engineering-Reise stehen. Der Schwerpunkt liegt auf der Erstellung, Verwaltung und Optimierung von Datenpipelines, den Grundlagen von ETL-Workflows (Extrahieren, Transformieren, Laden) und einer Einführung in die Big Data-Verarbeitung mit Apache Spark.
Das ist alles enthalten
12 Videos4 Lektüren3 Aufgaben
Infos zu Modulinhalt anzeigen
12 Videos•Insgesamt 61 Minuten
Einführung in den Kurs und Treffen mit dem Kursleiter•2 Minuten
Erläuterung der Rolle von Datenökosystemen•5 Minuten
Identifizierung von Datenquellen und Designprinzipien•6 Minuten
Anwendung von Tools und Technologien für Datenpipelines•4 Minuten
Prüfen von ETL-Prinzipien (Extrahieren, Transformieren, Laden)•6 Minuten
Identifizierung von Tools und Technologien für das Extrahieren, Transformieren, Laden (ETL)•5 Minuten
Prüfung von Big Data-Herausforderungen und -Lösungen•6 Minuten
Entschlüsselung von Apache Spark und seinen Funktionen•7 Minuten
Anwendung von Erkenntnissen zur Nutzung von Spark•8 Minuten
Analyse des Entwurfs skalierbarer Datenlösungen mit Spark•5 Minuten
ETL-Workflows mit Spark implementieren•5 Minuten
Glückwünsche und kontinuierliche Lernreise•1 Minute
4 Lektüren•Insgesamt 20 Minuten
Willkommen zum Kurs: Kursübersicht•5 Minuten
Die entscheidende Rolle der Data Engineers: Datenmanagement und -analyse•5 Minuten
Maximierung des WERTES für Unternehmen mit ETL für Big Data•5 Minuten
Erste Schritte mit PySpark und Big Data-Verarbeitung•5 Minuten
3 Aufgaben•Insgesamt 80 Minuten
Big Data Engineering-Lösungen•30 Minuten
Apache Spark-Implementierung und -Entwurf•30 Minuten
Entwicklung von Datenökosystemen: Pipelines, ETL, Spark•20 Minuten
Erwerben Sie ein Karrierezertifikat.
Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.
Coursera bringt ein vielfältiges Netzwerk von Fachexperten zusammen, die ihr Fachwissen durch berufliche Erfahrung in der Industrie oder einen starken akademischen Hintergrund unter Beweis gestellt haben. Diese Dozenten entwerfen und unterrichten Kurse, die praktische, berufsrelevante Fähigkeiten für Lernende weltweit zugänglich machen.
In diesem Kurs ist eine Datenpipeline ein zusammenhängender Prozess, mit dem Daten von ihren Quellen über Aufbereitungsschritte in eine nutzbare Form gebracht werden. Der Schwerpunkt liegt auf dem Verständnis der Hauptbestandteile dieses Workflows, wie ETL ihn unterstützt und wie er in ein modernes Datenökosystem passt.
Wann würden Sie eine Datenpipeline verwenden?
Eine Datenpipeline wird verwendet, wenn Daten auf wiederholbare Weise gesammelt, aufbereitet und verschoben werden müssen, anstatt als einmalige Aufgaben behandelt zu werden. In diesem Kurs geht es um Situationen mit mehreren Datenquellen, regelmäßigen Aktualisierungen oder größeren Datenmengen, die einen einheitlichen Arbeitsablauf erfordern.
Wie fügt sich eine Datenpipeline in einen umfassenderen Arbeitsablauf ein?
Eine Datenpipeline verbindet die früheren Phasen der Datenerfassung mit den späteren Phasen, in denen die Daten gespeichert, umgewandelt und verwendet werden. Der Kurs ordnet Pipelines in ein breiteres Datenökosystem ein und zeigt, wie ETL in diesen verbundenen Prozess passt.
Wie unterscheidet sich eine Datenpipeline von der Verarbeitung von Daten in einzelnen manuellen Schritten?
Eine Datenpipeline ist ein zusammenhängender Arbeitsablauf mit definierten Phasen, während einzelne manuelle Schritte ohne dieselbe Struktur oder Kontinuität nacheinander abgearbeitet werden. In diesem Kurs werden Pipelines als eine Möglichkeit vorgestellt, Datenbewegungen und -umwandlungen in einem wiederholbaren Prozess zu organisieren.
Benötigen Sie irgendwelche Voraussetzungen, um sich mit Datenpipelines vertraut zu machen?
Ein grundlegendes Verständnis von Programmierkonzepten ist hilfreich, und eine gewisse Vertrautheit mit Datenbanksystemen kann das Verstehen des Materials erleichtern. Der Kurs ist für Anfänger geeignet und setzt keine Vorkenntnisse in Spark voraus.
Welche Werkzeuge, Plattformen oder Methoden werden in diesem Kurs verwendet?
Der Kurs führt in ETL als wichtigste Datenverarbeitungsmethode und Apache Spark als die wichtigste Plattform für die Arbeit mit Big Data ein. Er gibt auch einen Überblick über die grundlegenden Tools und Technologien, die zum Aufbau und zur Verwaltung von Datenpipelines verwendet werden.
Welche konkreten Aufgaben werden Sie in diesem Kurs üben oder erledigen?
Sie werden Komponenten des Datenökosystems und der Pipeline identifizieren, ETL-Phasen untersuchen und allgemeine Big-Data-Herausforderungen erkunden. Sie werden auch die Auswahl grundlegender Tools vergleichen und einführende Spark-Konzepte verwenden, um skalierbare Daten-Workflows zu durchdenken.
Finanzielle Unterstützung verfügbar, weitere Informationen
¹ Einige Aufgaben in diesem Kurs werden mit AI bewertet. Für diese Aufgaben werden Ihre Daten in Übereinstimmung mit Datenschutzhinweis von Courseraverwendet.