Wann werde ich Zugang zu den Vorlesungen und Aufgaben haben?

Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Was erhalte ich, wenn ich das Zertifikat kaufe?

Wenn Sie ein Zertifikat erwerben, erhalten Sie Zugang zu allen Kursmaterialien, einschließlich der benoteten Aufgaben. Nach Abschluss des Kurses wird Ihr elektronisches Zertifikat zu Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen.

Ist finanzielle Hilfe verfügbar?

Ja. Für ausgewählte Lernprogramme können Sie finanzielle Unterstützung oder ein Stipendium beantragen, wenn Sie die Einschreibegebühr nicht aufbringen können. Wenn für das von Ihnen gewählte Lernprogramm eine finanzielle Unterstützung oder ein Stipendium verfügbar ist, finden Sie auf der Beschreibungsseite einen Link zur Beantragung.

Data Warehousing und Integration Teil 2

Sparen Sie mit 40% Rabatt auf 3 Monate Coursera Plus bei den Fähigkeiten, die Sie zum Strahlen bringen. Jetzt sparen

Data Warehousing und Integration Teil 2

Dozent: Venkat Krishnamurthy

Bei enthalten

Mehr erfahren

6 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

1 Woche zu vervollständigen

unter 10 Stunden pro Woche

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

6 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

1 Woche zu vervollständigen

unter 10 Stunden pro Woche

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

Kompetenzen, die Sie erwerben

Kategorie: Data Warehousing
Kategorie: DevOps
Kategorie: Datenverwaltung
Kategorie: Cloud-Technologien
Kategorie: CI/CD
Kategorie: Cloud-Technik
Kategorie: Architektur des Cloud Computing
Kategorie: Datenverarbeitung
Kategorie: Devops-Werkzeuge
Kategorie: Cloud-natives Computing
Kategorie: Datenarchitektur
Kategorie: Infrastruktur als Code (IaC)
Kategorie: Datengestützte Entscheidungsfindung
Kategorie: Daten-Infrastruktur
Kategorie: Extrahieren, Transformieren, Laden
Kategorie: Daten-Pipelines
Kategorie: Cloud Computing
Kategorie: Datenverwaltung
Kategorie: Integration von Daten
Kategorie: Qualität der Daten

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

9 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

In diesem Kurs gibt es 6 Module

Behandelt verschiedene Themen im Bereich Data Engineering zur Unterstützung von Entscheidungsunterstützungssystemen, Datenanalyse, Data Mining, Maschinelles Lernen und Künstliche Intelligenz. Studiert die Architektur von Data Warehouses vor Ort, die dimensionale Modellierung von Data Warehouses, Extrahieren, Transformieren, Laden (ETL) von Quellsystemen in Data Warehouses, OLAP-Systeme (On-line Analytical Processing) und die sich entwickelnde Welt der Datenqualität und Datenintegration. Bietet Studenten die Möglichkeit, Cloud-basierte Datenpipelines zu entwerfen, zu entwickeln und zu pflegen. Es werden sowohl lokale als auch Cloud-basierte Plattformen verwendet, um Data-Engineering-Techniken mit operativen und analytischen Data Warehouses zu veranschaulichen und zu implementieren.

Moduldetails

In diesem Modul lernen Sie die ETL-Prozesse (Extrahieren, Transformieren, Laden) kennen, die ein wesentlicher Bestandteil von Data Warehousing- und Datenintegrationslösungen sind. ETL-Prozesse können komplex und kostspielig sein, aber durch effektives Design und Modellierung lassen sich die Entwicklungs- und Wartungskosten erheblich reduzieren. Sie werden in die Grundlagen der Business Process Modeling Notation (BPMN) eingeführt, die für die Modellierung von Geschäftsprozessen entscheidend ist. Wir werden uns auf die Grundlagen der BPMN konzentrieren, einschließlich der Schlüsselkomponenten wie Flow-Objekte, Gateways, Ereignisse und Artefakte, die für die Modellierung von Geschäftsprozessen unerlässlich sind. Sie werden untersuchen, wie BPMN an die konzeptionelle Modellierung von ETL-Aufgaben angepasst werden kann, wobei ein besonderer Schwerpunkt auf der Unterscheidung zwischen Steuerungsaufgaben und Datenaufgaben liegt. Steuerungsaufgaben verwalten die Orchestrierung von ETL-Prozessen, während Datenaufgaben sich mit der Datenmanipulation befassen, die beide für die Konzeption von ETL-Workflows entscheidend sind. Am Ende dieses Moduls werden Sie ein solides Verständnis dafür erlangen, wie man ETL-Prozesse mithilfe von BPMN entwirft, was eine größere Flexibilität und Anpassungsfähigkeit über verschiedene Tools hinweg ermöglicht.

Das ist alles enthalten

2 Videos8 Lektüren2 Aufgaben

2 VideosInsgesamt 4 Minuten

Überblick über den Kurs2 Minuten
Treffen Sie Ihren Ausbilder: Venkat Krishnamurthy2 Minuten

8 LektürenInsgesamt 87 Minuten

Einführung in den Kurs2 Minuten
Syllabus - Data Warehousing & Integration Teil 210 Minuten
Akademische Integrität1 Minute
Modul 1: Extrahieren, Transformieren, Laden (ETL) 15 Minuten
BPMN-Notation21 Minuten
Konzeptionelles Extrahieren, Transformieren, Laden (ETL) mit BPMN28 Minuten
Unterscheidung zwischen Kontrollaufgaben und Datenaufgaben10 Minuten
Datentypen Aufgaben10 Minuten

2 AufgabenInsgesamt 24 Minuten

Bewerten Sie Ihr Lernen: BPMN-Notation12 Minuten
Bewerten Sie Ihr Lernen: Konzeptuelles Extrahieren, Transformieren, Laden (ETL) mit BPMN12 Minuten

In diesem Modul lernen Sie Talend Studio kennen, eine leistungsstarke Eclipse-basierte Plattform für die Datenintegration, die komplexe ETL-Vorgänge in intuitive visuelle Workflows verwandelt. Indem Sie die Drag-and-Drop Schnittstelle von Talend erkunden, lernen Sie, die Kernkomponenten der Plattform zu navigieren. Sie werden grundlegende ETL-Operationen beherrschen, indem Sie wesentliche Komponenten wie tMap für komplexe Datenumwandlungen und Joins, tJoin für einfache Datenverknüpfungen und verschiedene Input/Output-Komponenten für die Verbindung mit Datenbanken, Dateien und APIs studieren. Am Ende des Moduls werden Sie verstehen, wie Talend automatisch ausführbaren Java Code aus visuellen Designs generiert und Sie in die Lage versetzt, skalierbare, produktionsreife Datenintegrationslösungen zu erstellen, die sowohl Batch-Verarbeitung als auch Echtzeit-Datenszenarien in unterschiedlichen technologischen Umgebungen bewältigen können.

Das ist alles enthalten

3 Lektüren1 Aufgabe

In diesem Modul gehen wir vom Data Warehousing vor Ort zum Data Engineering über. Data Engineering hat zwar seine Wurzeln im Data Warehousing, umfasst aber viel mehr. Wir werden die wichtigsten Voraussetzungen für diese Entwicklung untersuchen, insbesondere Cloud-Computing und DevOps. Sie werden die Vorteile der Cloud-Entwicklung kennenlernen, darunter verbesserte Skalierbarkeit, Kosteneffizienz und Flexibilität bei Datenoperationen. Außerdem erfahren Sie, wie herkömmliche IT-Infrastrukturkomponenten wie Sicherheit, Vernetzung und Rechenressourcen in Cloud-Umgebungen mit AWS neu definiert werden. Darüber hinaus werden Sie ein Verständnis für DevOps in der Cloud erlangen, wobei der Schwerpunkt auf der Verwendung von virtuellen Maschinen und Containern zur Optimierung der kontinuierlichen Integration und Bereitstellung liegt. Wir werden wichtige DevOps-Praktiken wie Infrastructure as Code (IaC), CI/CD-Pipelines und automatisierte Tests behandeln und deren Rolle bei der Gewährleistung von Konsistenz, schnelleren Entwicklungszyklen und sicheren Anwendungen hervorheben. Anschließend werden Sie erfahren, was Data Engineering beinhaltet und welche Fähigkeiten ein Data Engineer benötigt. Schließlich werden wir das Konzept des Datenlebenszyklus und seine verschiedenen Phasen vorstellen, wobei wir uns auf die ersten beiden konzentrieren: Datenerzeugung und -speicherung.

Das ist alles enthalten

1 Video12 Lektüren2 Aufgaben

1 VideoInsgesamt 3 Minuten

Einführung in das Dateningenieurswesen3 Minuten

12 LektürenInsgesamt 141 Minuten

Modul 3 Überblick5 Minuten
Cloud Computing10 Minuten
Vorteile und bewährte Praktiken der Cloud-Entwicklung10 Minuten
Ähnlichkeiten zwischen traditioneller IT und AWS10 Minuten
DevOps in der Cloud10 Minuten
Virtuelle Maschinen vs. Container10 Minuten
Lebenszyklus der Softwareentwicklung und CI/CD10 Minuten
Vom Data Warehousing zum Data Engineer2 Minuten
Einführung in das Dateningenieurswesen11 Minuten
Speicherung und Erzeugung53 Minuten
Erzeugung: Wichtige Überlegungen5 Minuten
Lagerung: Wichtige Überlegungen5 Minuten

2 AufgabenInsgesamt 30 Minuten

Bewerten Sie Ihr Lernen: Cloud-Computing und DevOps15 Minuten
Bewerten Sie Ihr Lernen: Speicherung und Erzeugung15 Minuten

In diesem Modul werden wir die nächsten beiden Phasen des Datenlebenszyklus untersuchen: Ingestion und Transformation. Die Datenaufnahme bezieht sich auf den Prozess des Verschiebens von Daten aus Quellsystemen in den Speicher, um sie für die Verarbeitung und Analyse verfügbar zu machen. Im Laufe der Lektüre werden Sie die wichtigsten Ingestionsmuster untersuchen, darunter Batch- und Streaming-Ingestion, synchrone und asynchrone Methoden sowie Push-, Pull- und Hybrid-Ansätze. Sie werden auch wichtige technische Überlegungen wie Skalierbarkeit, Reliabilität und Datenqualitätsmanagement sowie die Herausforderungen von Schemaänderungen untersuchen. Im Rahmen der Lektüre werden verschiedene Technologien vorgestellt, die die Datenaufnahme ermöglichen, z. B. JDBC/ODBC, Change Data Capture (CDC), APIs und Event-Streaming-Plattformen wie Kafka. Anschließend verlagern wir den Schwerpunkt auf die Transformationsphase des Lebenszyklus und erforschen verschiedene Arten von Transformationen, die komplexe Geschäftslogik in Datenpipelines integrieren. Am Ende des Moduls werden wir uns auf die Datenarchitektur und die Implementierung guter Architekturprinzipien konzentrieren, um skalierbare und zuverlässige Datenpipelines aufzubauen.

Das ist alles enthalten

4 Videos12 Lektüren2 Aufgaben2 App-Elemente

4 VideosInsgesamt 9 Minuten

Batch- und Stream-Verarbeitung kombinieren4 Minuten
Hybrider Ansatz: Kombination von Push- und Pull-Methoden3 Minuten
Einführung in die Transformation1 Minute
Transformation Schlussfolgerung1 Minute

12 LektürenInsgesamt 98 Minuten

Modul 4 Überblick5 Minuten
Verschlucken18 Minuten
Batching versus Streaming2 Minuten
Batching in Daten-Pipelines5 Minuten
Streaming in Datenpipelines5 Minuten
Push und Pull: Einführung2 Minuten
Verschlucken: Wichtige Überlegungen5 Minuten
Abfragen, Modellierung und Transformationen33 Minuten
Transformation: Wichtige Überlegungen2 Minuten
Data Engineer Lebenszyklus - Unterströmungen11 Minuten
Grundsätze für eine gute Datenarchitektur5 Minuten
Beispiele für Datenarchitekturen5 Minuten

2 AufgabenInsgesamt 30 Minuten

Bewerten Sie Ihr Lernen: Verschlucken15 Minuten
Bewerten Sie Ihr Lernen: Abfragen, Modellieren und Transformieren15 Minuten

2 App-ElementeInsgesamt 35 Minuten

Push- und Pull-Methode in Datenpipelines15 Minuten
Arten von Datenumwandlungen20 Minuten

In diesem Modul werden wir uns mit den Dateneigenschaften und deren Einfluss auf Infrastrukturentscheidungen befassen. In der heutigen datengesteuerten Welt ist das Verständnis der Eigenschaften Ihrer Daten entscheidend für die Entwicklung robuster Datenpipelines. Wir befassen uns mit Schlüsselmerkmalen wie dem Volumen, das sich auf die Größe der Datensätze bezieht, und der Geschwindigkeit, die bestimmt, wie häufig neue Daten generiert werden. Wir werden auch einen Blick auf die Vielfalt werfen, die sich auf Datenformate und -quellen konzentriert, sowie auf die Wahrhaftigkeit, die sich auf die Genauigkeit und Vertrauenswürdigkeit der Daten bezieht. Das ultimative Ziel ist es, durch aufschlussreiche Analysen den Wert der Daten zu ermitteln. Während wir uns mit dem Pipeline-Design beschäftigen, erfahren Sie, wie diese Merkmale wichtige Entscheidungen beeinflussen, z. B. die Wahl der Speicher-, Verarbeitungs- und Analytik-Tools. Wir werden auch wesentliche AWS-Services wie Amazon S3, Glue und Athena behandeln und untersuchen, wie sie skalierbares und flexibles Data Engineering unterstützen. Am Ende dieses Moduls werden Sie ein umfassendes Verständnis dafür haben, wie man effektive Datenlösungen erstellt, um sowohl technische als auch geschäftliche Anforderungen zu erfüllen.

Das ist alles enthalten

6 Lektüren1 Aufgabe

Willkommen in der letzten Phase des Datenlebenszyklus: der Bereitstellung von Daten. In diesem Modul konzentrieren wir uns auf die effektive Bereitstellung von Daten für Analytik, Maschinelles Lernen (ML) und Reverse ETL, um sicherzustellen, dass die von Ihnen entworfenen Datenprodukte zuverlässig und umsetzbar sind und das Vertrauen der Stakeholder genießen. Zu den wichtigsten Themen gehören die Festlegung von SLAs, die Identifizierung von Anwendungsfällen, die Entwicklung von Datenprodukten mit Feedback, die Standardisierung von Datendefinitionen und die Untersuchung von Bereitstellungsmethoden wie Dateiaustausch, Datenbanken und Streaming-Systeme. Wir werden auch den Einsatz von Reverse ETL zur Verbesserung von Geschäftsprozessen behandeln und die Bedeutung des Kontexts für die Auswahl der besten Visualisierungsart und -tools diskutieren. Anschließend befassen wir uns mit KPIs und Metriken und deren Klassifizierung, einschließlich der Identifizierung robuster KPIs auf der Grundlage des Geschäftskontexts. Schließlich werden wir uns auf die Erstellung intuitiver Dashboards konzentrieren, indem wir die richtigen Analysen, Visualisierungen und Metriken auswählen, die je nach Geschäftskontext und Zielgruppe präsentiert werden. Am Ende dieses Moduls werden Sie wissen, wie Sie Datenlösungen entwerfen und bereitstellen können, die sinnvolle Maßnahmen vorantreiben und von den Endbenutzern als vertrauenswürdig angesehen werden.