Behandelt verschiedene Themen im Bereich Data Engineering zur Unterstützung von Entscheidungsunterstützungssystemen, Datenanalyse, Data Mining, Maschinelles Lernen und Künstliche Intelligenz. Studiert die Architektur von Data Warehouses vor Ort, die dimensionale Modellierung von Data Warehouses, Extrahieren, Transformieren, Laden (ETL) von Quellsystemen in Data Warehouses, OLAP-Systeme (On-line Analytical Processing) und die sich entwickelnde Welt der Datenqualität und Datenintegration. Bietet Studenten die Möglichkeit, Cloud-basierte Datenpipelines zu entwerfen, zu entwickeln und zu pflegen. Es werden sowohl lokale als auch Cloud-basierte Plattformen verwendet, um Data-Engineering-Techniken mit operativen und analytischen Data Warehouses zu veranschaulichen und zu implementieren.
In diesem Modul lernen Sie die ETL-Prozesse (Extrahieren, Transformieren, Laden) kennen, die ein wesentlicher Bestandteil von Data Warehousing- und Datenintegrationslösungen sind. ETL-Prozesse können komplex und kostspielig sein, aber durch effektives Design und Modellierung lassen sich die Entwicklungs- und Wartungskosten erheblich reduzieren. Sie werden in die Grundlagen der Business Process Modeling Notation (BPMN) eingeführt, die für die Modellierung von Geschäftsprozessen entscheidend ist. Wir werden uns auf die Grundlagen der BPMN konzentrieren, einschließlich der Schlüsselkomponenten wie Flow-Objekte, Gateways, Ereignisse und Artefakte, die für die Modellierung von Geschäftsprozessen unerlässlich sind. Sie werden untersuchen, wie BPMN an die konzeptionelle Modellierung von ETL-Aufgaben angepasst werden kann, wobei ein besonderer Schwerpunkt auf der Unterscheidung zwischen Steuerungsaufgaben und Datenaufgaben liegt. Steuerungsaufgaben verwalten die Orchestrierung von ETL-Prozessen, während Datenaufgaben sich mit der Datenmanipulation befassen, die beide für die Konzeption von ETL-Workflows entscheidend sind. Am Ende dieses Moduls werden Sie ein solides Verständnis dafür erlangen, wie man ETL-Prozesse mithilfe von BPMN entwirft, was eine größere Flexibilität und Anpassungsfähigkeit über verschiedene Tools hinweg ermöglicht.
Das ist alles enthalten
2 Videos8 Lektüren2 Aufgaben
Infos zu Modulinhalt anzeigen
2 Videos•Insgesamt 4 Minuten
Überblick über den Kurs•2 Minuten
Treffen Sie Ihren Ausbilder: Venkat Krishnamurthy•2 Minuten
8 Lektüren•Insgesamt 87 Minuten
Einführung in den Kurs•2 Minuten
Syllabus - Data Warehousing & Integration Teil 2•10 Minuten
Akademische Integrität•1 Minute
Modul 1: Extrahieren, Transformieren, Laden (ETL) 1•5 Minuten
BPMN-Notation•21 Minuten
Konzeptionelles Extrahieren, Transformieren, Laden (ETL) mit BPMN•28 Minuten
Unterscheidung zwischen Kontrollaufgaben und Datenaufgaben•10 Minuten
Datentypen Aufgaben•10 Minuten
2 Aufgaben•Insgesamt 24 Minuten
Bewerten Sie Ihr Lernen: BPMN-Notation•12 Minuten
Bewerten Sie Ihr Lernen: Konzeptuelles Extrahieren, Transformieren, Laden (ETL) mit BPMN•12 Minuten
In diesem Modul lernen Sie Talend Studio kennen, eine leistungsstarke Eclipse-basierte Plattform für die Datenintegration, die komplexe ETL-Vorgänge in intuitive visuelle Workflows verwandelt. Indem Sie die Drag-and-Drop Schnittstelle von Talend erkunden, lernen Sie, die Kernkomponenten der Plattform zu navigieren. Sie werden grundlegende ETL-Operationen beherrschen, indem Sie wesentliche Komponenten wie tMap für komplexe Datenumwandlungen und Joins, tJoin für einfache Datenverknüpfungen und verschiedene Input/Output-Komponenten für die Verbindung mit Datenbanken, Dateien und APIs studieren. Am Ende des Moduls werden Sie verstehen, wie Talend automatisch ausführbaren Java Code aus visuellen Designs generiert und Sie in die Lage versetzt, skalierbare, produktionsreife Datenintegrationslösungen zu erstellen, die sowohl Batch-Verarbeitung als auch Echtzeit-Datenszenarien in unterschiedlichen technologischen Umgebungen bewältigen können.
Das ist alles enthalten
3 Lektüren1 Aufgabe
Infos zu Modulinhalt anzeigen
3 Lektüren•Insgesamt 45 Minuten
Modul 2 Überblick•5 Minuten
ETL-Entwurf in Talend•10 Minuten
Talend Kurzanleitung•30 Minuten
1 Aufgabe•Insgesamt 15 Minuten
Bewerten Sie Ihr Lernen: Talend•15 Minuten
Data Engineer 1
Modul 3•3 Stunden abzuschließen
Moduldetails
In diesem Modul gehen wir vom Data Warehousing vor Ort zum Data Engineering über. Data Engineering hat zwar seine Wurzeln im Data Warehousing, umfasst aber viel mehr. Wir werden die wichtigsten Voraussetzungen für diese Entwicklung untersuchen, insbesondere Cloud-Computing und DevOps. Sie werden die Vorteile der Cloud-Entwicklung kennenlernen, darunter verbesserte Skalierbarkeit, Kosteneffizienz und Flexibilität bei Datenoperationen. Außerdem erfahren Sie, wie herkömmliche IT-Infrastrukturkomponenten wie Sicherheit, Vernetzung und Rechenressourcen in Cloud-Umgebungen mit AWS neu definiert werden. Darüber hinaus werden Sie ein Verständnis für DevOps in der Cloud erlangen, wobei der Schwerpunkt auf der Verwendung von virtuellen Maschinen und Containern zur Optimierung der kontinuierlichen Integration und Bereitstellung liegt. Wir werden wichtige DevOps-Praktiken wie Infrastructure as Code (IaC), CI/CD-Pipelines und automatisierte Tests behandeln und deren Rolle bei der Gewährleistung von Konsistenz, schnelleren Entwicklungszyklen und sicheren Anwendungen hervorheben. Anschließend werden Sie erfahren, was Data Engineering beinhaltet und welche Fähigkeiten ein Data Engineer benötigt. Schließlich werden wir das Konzept des Datenlebenszyklus und seine verschiedenen Phasen vorstellen, wobei wir uns auf die ersten beiden konzentrieren: Datenerzeugung und -speicherung.
Das ist alles enthalten
1 Video12 Lektüren2 Aufgaben
Infos zu Modulinhalt anzeigen
1 Video•Insgesamt 3 Minuten
Einführung in das Dateningenieurswesen•3 Minuten
12 Lektüren•Insgesamt 141 Minuten
Modul 3 Überblick•5 Minuten
Cloud Computing•10 Minuten
Vorteile und bewährte Praktiken der Cloud-Entwicklung•10 Minuten
Ähnlichkeiten zwischen traditioneller IT und AWS•10 Minuten
DevOps in der Cloud•10 Minuten
Virtuelle Maschinen vs. Container•10 Minuten
Lebenszyklus der Softwareentwicklung und CI/CD•10 Minuten
Vom Data Warehousing zum Data Engineer•2 Minuten
Einführung in das Dateningenieurswesen•11 Minuten
Speicherung und Erzeugung•53 Minuten
Erzeugung: Wichtige Überlegungen•5 Minuten
Lagerung: Wichtige Überlegungen•5 Minuten
2 Aufgaben•Insgesamt 30 Minuten
Bewerten Sie Ihr Lernen: Cloud-Computing und DevOps•15 Minuten
Bewerten Sie Ihr Lernen: Speicherung und Erzeugung•15 Minuten
Data Engineer 2
Modul 4•3 Stunden abzuschließen
Moduldetails
In diesem Modul werden wir die nächsten beiden Phasen des Datenlebenszyklus untersuchen: Ingestion und Transformation. Die Datenaufnahme bezieht sich auf den Prozess des Verschiebens von Daten aus Quellsystemen in den Speicher, um sie für die Verarbeitung und Analyse verfügbar zu machen. Im Laufe der Lektüre werden Sie die wichtigsten Ingestionsmuster untersuchen, darunter Batch- und Streaming-Ingestion, synchrone und asynchrone Methoden sowie Push-, Pull- und Hybrid-Ansätze. Sie werden auch wichtige technische Überlegungen wie Skalierbarkeit, Reliabilität und Datenqualitätsmanagement sowie die Herausforderungen von Schemaänderungen untersuchen. Im Rahmen der Lektüre werden verschiedene Technologien vorgestellt, die die Datenaufnahme ermöglichen, z. B. JDBC/ODBC, Change Data Capture (CDC), APIs und Event-Streaming-Plattformen wie Kafka. Anschließend verlagern wir den Schwerpunkt auf die Transformationsphase des Lebenszyklus und erforschen verschiedene Arten von Transformationen, die komplexe Geschäftslogik in Datenpipelines integrieren. Am Ende des Moduls werden wir uns auf die Datenarchitektur und die Implementierung guter Architekturprinzipien konzentrieren, um skalierbare und zuverlässige Datenpipelines aufzubauen.
Das ist alles enthalten
4 Videos12 Lektüren2 Aufgaben2 App-Elemente
Infos zu Modulinhalt anzeigen
4 Videos•Insgesamt 9 Minuten
Batch- und Stream-Verarbeitung kombinieren•4 Minuten
Hybrider Ansatz: Kombination von Push- und Pull-Methoden•3 Minuten
Einführung in die Transformation•1 Minute
Transformation Schlussfolgerung•1 Minute
12 Lektüren•Insgesamt 98 Minuten
Modul 4 Überblick•5 Minuten
Verschlucken•18 Minuten
Batching versus Streaming•2 Minuten
Batching in Daten-Pipelines•5 Minuten
Streaming in Datenpipelines•5 Minuten
Push und Pull: Einführung•2 Minuten
Verschlucken: Wichtige Überlegungen•5 Minuten
Abfragen, Modellierung und Transformationen•33 Minuten
Transformation: Wichtige Überlegungen•2 Minuten
Data Engineer Lebenszyklus - Unterströmungen•11 Minuten
Grundsätze für eine gute Datenarchitektur•5 Minuten
Beispiele für Datenarchitekturen•5 Minuten
2 Aufgaben•Insgesamt 30 Minuten
Bewerten Sie Ihr Lernen: Verschlucken•15 Minuten
Bewerten Sie Ihr Lernen: Abfragen, Modellieren und Transformieren•15 Minuten
2 App-Elemente•Insgesamt 35 Minuten
Push- und Pull-Methode in Datenpipelines•15 Minuten
Arten von Datenumwandlungen•20 Minuten
Pipeline-Planung
Modul 5•1 Stunde abzuschließen
Moduldetails
In diesem Modul werden wir uns mit den Dateneigenschaften und deren Einfluss auf Infrastrukturentscheidungen befassen. In der heutigen datengesteuerten Welt ist das Verständnis der Eigenschaften Ihrer Daten entscheidend für die Entwicklung robuster Datenpipelines. Wir befassen uns mit Schlüsselmerkmalen wie dem Volumen, das sich auf die Größe der Datensätze bezieht, und der Geschwindigkeit, die bestimmt, wie häufig neue Daten generiert werden. Wir werden auch einen Blick auf die Vielfalt werfen, die sich auf Datenformate und -quellen konzentriert, sowie auf die Wahrhaftigkeit, die sich auf die Genauigkeit und Vertrauenswürdigkeit der Daten bezieht. Das ultimative Ziel ist es, durch aufschlussreiche Analysen den Wert der Daten zu ermitteln. Während wir uns mit dem Pipeline-Design beschäftigen, erfahren Sie, wie diese Merkmale wichtige Entscheidungen beeinflussen, z. B. die Wahl der Speicher-, Verarbeitungs- und Analytik-Tools. Wir werden auch wesentliche AWS-Services wie Amazon S3, Glue und Athena behandeln und untersuchen, wie sie skalierbares und flexibles Data Engineering unterstützen. Am Ende dieses Moduls werden Sie ein umfassendes Verständnis dafür haben, wie man effektive Datenlösungen erstellt, um sowohl technische als auch geschäftliche Anforderungen zu erfüllen.
Das ist alles enthalten
6 Lektüren1 Aufgabe
Infos zu Modulinhalt anzeigen
6 Lektüren•Insgesamt 50 Minuten
Modul 5 Überblick•5 Minuten
Entwurf von Rohrleitungen•5 Minuten
Eine einfache Pipeline in AWS•10 Minuten
AWS-Tools für Data Engineer-Lösungen•10 Minuten
Data Lakehouse Architektur•10 Minuten
Data Lakehouse-Architektur auf AWS•10 Minuten
1 Aufgabe•Insgesamt 15 Minuten
Bewerten Sie Ihr Lernen: Data Engineer auf AWS•15 Minuten
Daten servieren
Modul 6•2 Stunden abzuschließen
Moduldetails
Willkommen in der letzten Phase des Datenlebenszyklus: der Bereitstellung von Daten. In diesem Modul konzentrieren wir uns auf die effektive Bereitstellung von Daten für Analytik, Maschinelles Lernen (ML) und Reverse ETL, um sicherzustellen, dass die von Ihnen entworfenen Datenprodukte zuverlässig und umsetzbar sind und das Vertrauen der Stakeholder genießen. Zu den wichtigsten Themen gehören die Festlegung von SLAs, die Identifizierung von Anwendungsfällen, die Entwicklung von Datenprodukten mit Feedback, die Standardisierung von Datendefinitionen und die Untersuchung von Bereitstellungsmethoden wie Dateiaustausch, Datenbanken und Streaming-Systeme. Wir werden auch den Einsatz von Reverse ETL zur Verbesserung von Geschäftsprozessen behandeln und die Bedeutung des Kontexts für die Auswahl der besten Visualisierungsart und -tools diskutieren. Anschließend befassen wir uns mit KPIs und Metriken und deren Klassifizierung, einschließlich der Identifizierung robuster KPIs auf der Grundlage des Geschäftskontexts. Schließlich werden wir uns auf die Erstellung intuitiver Dashboards konzentrieren, indem wir die richtigen Analysen, Visualisierungen und Metriken auswählen, die je nach Geschäftskontext und Zielgruppe präsentiert werden. Am Ende dieses Moduls werden Sie wissen, wie Sie Datenlösungen entwerfen und bereitstellen können, die sinnvolle Maßnahmen vorantreiben und von den Endbenutzern als vertrauenswürdig angesehen werden.
Das ist alles enthalten
11 Lektüren1 Aufgabe
Infos zu Modulinhalt anzeigen
11 Lektüren•Insgesamt 88 Minuten
Modul 6 Überblick•5 Minuten
Daten servieren•36 Minuten
Servieren von Daten: Wichtige Überlegungen•5 Minuten
Kontext von Visualisierungen•5 Minuten
Vergleich der Visualisierungsfelder•5 Minuten
Arten der Datenvisualisierung und ihre Vorteile•10 Minuten
Wichtige Leistungsindikatoren•5 Minuten
KPI: Leitlinien•5 Minuten
Dashboards•5 Minuten
Dashboards: Leitlinien•5 Minuten
Herzlichen Glückwunsch!•2 Minuten
1 Aufgabe•Insgesamt 15 Minuten
Bewerten Sie Ihr Lernen: Bereitstellung von Daten und Visualisierungen•15 Minuten
Northeastern wurde 1898 gegründet und ist eine globale Forschungsuniversität mit einem unverwechselbaren, erfahrungsorientierten Ansatz für Bildung und Entdeckung. Die Universität ist führend im Bereich des erfahrungsbasierten Lernens und verfügt über das weltweit umfassendste Programm für kooperative Ausbildung. Der Geist der Zusammenarbeit leitet ein vom Nutzen inspiriertes Forschungsunternehmen, das sich auf die Lösung globaler Herausforderungen in den Bereichen Gesundheit, Sicherheit und Nachhaltigkeit konzentriert.
Wann werde ich Zugang zu den Vorlesungen und Aufgaben haben?
Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Was erhalte ich, wenn ich das Zertifikat kaufe?
Wenn Sie ein Zertifikat erwerben, erhalten Sie Zugang zu allen Kursmaterialien, einschließlich der benoteten Aufgaben. Nach Abschluss des Kurses wird Ihr elektronisches Zertifikat zu Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen.
Ist finanzielle Hilfe verfügbar?
Ja. Für ausgewählte Lernprogramme können Sie finanzielle Unterstützung oder ein Stipendium beantragen, wenn Sie die Einschreibegebühr nicht aufbringen können. Wenn für das von Ihnen gewählte Lernprogramm eine finanzielle Unterstützung oder ein Stipendium verfügbar ist, finden Sie auf der Beschreibungsseite einen Link zur Beantragung.