Lernen Sie, wie man multimodale Such- und RAG-Systeme aufbaut. RAG-Systeme erweitern ein LLM, indem sie eigene Daten in den Kontext der Eingabeaufforderung einbeziehen. Normalerweise verwenden RAG-Anwendungen Textdokumente, aber was ist, wenn der gewünschte Kontext Multimedia wie Bilder, Audio und Video enthält? Dieser Kurs behandelt die technischen Aspekte der Implementierung von RAG mit multimodalen Daten, um dies zu erreichen. 1. Lernen Sie, wie multimodale Modelle durch kontrastives Lernen trainiert werden und implementieren Sie es auf einem realen Datensatz. 2. Aufbau einer multimodalen Any-to-Any-Suche, um relevanten Kontext über verschiedene Datentypen hinweg zu finden. 3. Lernen Sie, wie LLMs trainiert werden, um multimodale Daten durch visuelles Instruktionstuning zu verstehen, und wenden Sie sie auf mehrere Beispiele für Bildschlüsse an. 4. Implementierung eines multimodalen End-to-End-RAG-Systems, das den abgerufenen multimodalen Kontext analysiert, um aufschlussreiche Antworten zu generieren. 5. Erforschung von Industrieanwendungen wie die visuelle Analyse von Rechnungen und Flussdiagrammen zur Ausgabe strukturierter Daten. 6. Erstellen eines multivektoralen Empfehlungssystems, das relevante Artikel vorschlägt, indem es ihre Ähnlichkeiten über mehrere Modalitäten hinweg vergleicht. AS Da KI-Systeme zunehmend mehrere Datenmodalitäten verarbeiten und schlussfolgern müssen, ist das Erlernen des Aufbaus solcher Systeme eine wichtige Fähigkeit für KI-Entwickler. Dieser Kurs vermittelt Ihnen die Schlüsselkompetenzen zum Einbetten, Abrufen und Generieren über verschiedene Modalitäten hinweg. Durch den Erwerb einer soliden Grundlage in multimodaler KI werden Sie darauf vorbereitet, intelligentere Such-, RAG- und Empfehlungssysteme zu entwickeln.
Multimodale Suche und RAG aufbauen
Sparen Sie mit 40% Rabatt auf 3 Monate Coursera Plus bei den Fähigkeiten, die Sie zum Strahlen bringen. Jetzt sparen

(43 Bewertungen)
Empfohlene Erfahrung
Was Sie lernen werden
Lernen Sie Multimodalität mit kontrastivem Lernen, um modalitätsunabhängige Einbettungen für nahtlose Any-to-Any-Abfragen zu erstellen.
Aufbau multimodaler RAG-Systeme, die multimodalen Kontext abrufen und darauf aufbauend relevantere Antworten generieren.
Implementierung industrieller Anwendungen der multimodalen Suche und Aufbau von multivektoralen Empfehlungssystemen.
Kompetenzen, die Sie festigen
- Kategorie: LLM-Bewerbung
- Kategorie: Angewandtes maschinelles Lernen
- Kategorie: Abruf-erweiterte Erzeugung
- Kategorie: Multimodale Aufforderungen
- Kategorie: Einbettungen
- Kategorie: Modellierung großer Sprachen
- Kategorie: Bildanalyse
Tools, die Sie verwenden werden
- Kategorie: Generative KI
- Kategorie: Vektordatenbanken
Wichtige Details
Nur als Desktop-Version verfügbar
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Lernen, Üben und Anwenden von berufsrelevanten Fähigkeiten in weniger als 2 Stunden
- Nehmen Sie an Schulungen von Branchenexperten teil
- Sammeln Sie mit Aufgaben aus der realen Welt praktische Erfahrung

Über dieses Projekt
Dozent

Was Sie beim Lernen erwartet
Praktisches, projektbasiertes Lernen
Üben Sie die Anwendung neuer Kompetenzen, indem Sie berufsbezogene Aufgaben anhand von detaillierten Anweisungen lösen.
Keine Downloads oder Installation erforderlich
Greifen Sie in einer Cloud-Umgebung auf die Tools und Ressourcen zu.
Nur für Desktop verfügbar
Dieses Projekt ist für die Bearbeitung an einem Laptop oder Desktop-Computer mit stabiler Internetverbindung konzipiert und nicht für Mobilgeräte.
Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Jennifer J.

Larry W.







