Packt
Vorverarbeitung unstrukturierter Daten für LLMs und RAG-Systeme

Genießen Sie unbegrenztes Wachstum mit einem Jahr Coursera Plus für 199 $ (regulär 399 $). Jetzt sparen.

Packt

Vorverarbeitung unstrukturierter Daten für LLMs und RAG-Systeme

Bei Coursera Plus enthalten

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
Stufe Mittel

Empfohlene Erfahrung

5 Stunden zu vervollständigen
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen
Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
Stufe Mittel

Empfohlene Erfahrung

5 Stunden zu vervollständigen
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

  • Meistertechniken für die Vorverarbeitung unstrukturierter Daten für LLM- und RAG-Systeme.

  • Extrahieren und Normalisieren von Daten aus komplexen Dokumenttypen wie PDFs und HTML.

  • Umsetzung der semantischen Ähnlichkeit und der Extraktion von Metadaten mit Hilfe von Vektor-Datenbanken.

  • Erstellen Sie ein RAG-System zur dynamischen Interaktion mit Ihren vorverarbeiteten Daten.

Kompetenzen, die Sie erwerben

  • Kategorie: LangChain
  • Kategorie: Einbettungen
  • Kategorie: Abruf-erweiterte Erzeugung
  • Kategorie: Datenqualität
  • Kategorie: Daten in Echtzeit
  • Kategorie: Vektor-Datenbanken
  • Kategorie: Vision Transformer (ViT)

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

8 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

 Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

In diesem Kurs gibt es 8 Module

In diesem Modul führen wir Sie in den Kurs ein und zeigen Ihnen die Ziele des Kurses, die Fähigkeiten und Kenntnisse, die Sie für den Erfolg benötigen, sowie den Aufbau des Inhalts auf, um Sie durch den Prozess der Vorbereitung unstrukturierter Daten für große Sprachmodelle (LLMs) und Retrieval-Augmented Generation (RAG) Systeme zu führen.

Das ist alles enthalten

2 Videos1 Lektüre

In diesem Modul führen wir Sie durch die Einrichtung der erforderlichen Entwicklungsumgebung, einschließlich der Erstellung und Konfiguration von API-Konten, der Integration des Unstructured Frameworks und der Durchführung eines Testlaufs, um sicherzustellen, dass alles funktioniert, bevor Sie mit der Datenvorverarbeitung fortfahren.

Das ist alles enthalten

4 Videos1 Aufgabe

In diesem Modul werden wir die Feinheiten der Datenvorverarbeitung für LLMs erforschen und dabei auf die Herausforderungen eingehen, die unstrukturierte Daten mit sich bringen, sowie auf die Techniken, die erforderlich sind, um diese zu bewältigen. Sie lernen den gesamten Workflow kennen - von der Datenbereinigung und -normalisierung bis hin zur Strukturierung und Chunking - und erhalten schließlich einen umfassenden Überblick über das Unstructured Framework.

Das ist alles enthalten

6 Videos1 Aufgabe

In diesem Modul werden wir in praktische Übungen eintauchen und das Unstructured Framework zur Vorverarbeitung verschiedener Dokumenttypen verwenden. Sie werden die Schritte zur Extraktion und Normalisierung von Daten aus PDFs, PPTX-Dateien und HTML erkunden und entdecken, wie diese Prozesse die Datenqualität für nachgelagerte Anwendungsfälle in LLMs und RAG-Systemen verbessern.

Das ist alles enthalten

4 Videos1 Aufgabe

In diesem Modul konzentrieren wir uns auf das Chunking und die Extraktion von Metadaten und untersuchen, wie man den Inhalt von Dokumenten in logische Einheiten aufteilt und mit Metadaten für fortgeschrittene Anwendungen wie semantische Ähnlichkeit und hybride Suche anreichert. Anhand praktischer Übungen lernen Sie, wie Sie Workflows zur Dokumentenverarbeitung optimieren, Dokumentelemente effektiv strukturieren und die Ergebnisse in eine Vektor-Datenbank integrieren können.

Das ist alles enthalten

8 Videos1 Aufgabe

In diesem Modul werden wir die Herausforderungen der Vorverarbeitung komplexer Dokumente, einschließlich PDFs und Bilder, angehen, indem wir fortschrittliche Werkzeuge wie DLD und ViT nutzen. Sie lernen praktische Methoden zum Extrahieren und Zusammenfassen von Tabelleninhalten kennen, erhalten Einblicke in die effiziente Vorverarbeitung von HTML- und PDF-Dateien und bewerten die Kompromisse zwischen verschiedenen Vorverarbeitungstechniken.

Das ist alles enthalten

7 Videos1 Aufgabe

In diesem Modul werden wir die im Kurs erlernten Fähigkeiten und Techniken zusammenführen, um ein komplettes RAG-System aufzubauen. Von der Vorverarbeitung und Strukturierung komplexer Dokumente bis hin zur Erstellung einer durchsuchbaren Datenbank und der Ermöglichung von Konversationsinteraktionen mit Ihren Dokumenten werden Sie praktische Erfahrungen bei der Bereitstellung einer End-to-End-Lösung sammeln, die für reale Anwendungen zugeschnitten ist.

Das ist alles enthalten

6 Videos1 Aufgabe

In diesem Modul werden wir den Kurs abschließen, indem wir die wichtigsten Meilensteine und erworbenen Fähigkeiten wiederholen. Sie erhalten Anleitung zur Anwendung Ihres Wissens auf reale Szenarien und entdecken Ressourcen, um Ihre Reise in der fortgeschrittenen Datenvorverarbeitung und RAG-Systementwicklung fortzusetzen.

Das ist alles enthalten

1 Video2 Aufgaben

Dozent

Packt - Course Instructors
Packt
1.280 Kurse309.258 Lernende

von

Packt

Mehr von Datenmanagement entdecken

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.
Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“
Jennifer J.
Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“
Larry W.
Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“
Chaitanya A.
„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Häufig gestellte Fragen