Erwerben Sie in nur 3 Wochen die Fähigkeiten, die Sie benötigen, um multimodale generative KI-Anwendungen zu erstellen
Verstehen der grundlegenden Konzepte und Herausforderungen der multimodalen KI, einschließlich der Integration von Text, Sprache, Bildern und Video
Erstellen Sie multimodale KI-Anwendungen mit modernsten Modellen und Frameworks wie Granite von IBM, Llama von Meta, Whisper von OpenAI, DALL-E und Sora
Entwicklung multimodaler KI-Lösungen, einschließlich Chatbots und Bild-/Video-Generierungsmodelle, unter Verwendung von IBM watsonx.ai, Hugging Face, Flask und Gradio
Kompetenzen, die Sie erwerben
Kategorie: LLM-Bewerbung
LLM-Bewerbung
Kategorie: Multimodale Aufforderungen
Multimodale Aufforderungen
Kategorie: Bereitstellung von Anwendungen
Bereitstellung von Anwendungen
Kategorie: Software-Entwicklung
Software-Entwicklung
Kategorie: Abruf-erweiterte Erzeugung
Abruf-erweiterte Erzeugung
Kategorie: AI-Integrationen
AI-Integrationen
Kategorie: Einbettungen
Einbettungen
Kategorie: Entscheidungsintelligenz
Entscheidungsintelligenz
Kategorie: Web-Entwicklung
Web-Entwicklung
Kategorie: KI-gestützte Kreativität
KI-gestützte Kreativität
Kategorie: Modellierung großer Sprachen
Modellierung großer Sprachen
Werkzeuge, die Sie lernen werden
Kategorie: Flask (Web-Framework)
Flask (Web-Framework)
Kategorie: Schnelles Engineering
Schnelles Engineering
Kategorie: OpenAI-API
OpenAI-API
Wichtige Details
Zertifikat zur Vorlage
Zu Ihrem LinkedIn-Profil hinzufügen
Bewertungen
6 Aufgaben
Unterrichtet in Englisch
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.
Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für dieses berufsbezogene Zertifikat angemeldet.
Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat von IBM zur Vorlage
In diesem Kurs gibt es 3 Module
Sind Sie bereit, Ihre GenAI-Fähigkeiten zu verbessern? Treten Sie ein in die aufregende Welt der multimodalen KI, in der Sprache, Bilder und Sprache zusammenkommen, um intelligentere, interaktivere Anwendungen zu erstellen. In diesem praktischen Kurs lernen Sie, wie man Systeme erstellt, die über mehrere Modalitäten hinweg funktionieren, von der Erstellung von KI-gesteuerten Geschichtenerzählern und Meeting-Assistenten bis hin zur Entwicklung von Tools für Bildunterschriften und Anwendungen zur Videoerstellung.
Sie werden Erfahrungen mit realen Tools wie IBM's Granite, OpenAI's Whisper, Sora und DALL-E, Meta's Llama, Mistral's Mixtral, und Gradio sammeln. Außerdem lernen Sie multimodale Such-, Fragebeantwortungs- und Retrievalsysteme kennen, die Text, Sprache und visuelle Daten kombinieren.
Am Ende des Kurses werden Sie in der Lage sein, multimodale Full Stack KI-Lösungen mit Python und Frameworks wie Flask und Gradio zu entwerfen und zu erstellen. Wenn Sie sich gefragte Fähigkeiten für die Entwicklung der nächsten Generation von KI-Anwendungen aneignen möchten, melden Sie sich noch heute an und bringen Sie Ihre KI-Karriere voran!
Dieses Modul bietet eine gründliche Einführung in die multimodale KI, wobei der Schwerpunkt darauf liegt, wie KI-Systeme mehrere Datentypen, einschließlich Text, Sprache und Bilder, verarbeiten und integrieren. Sie lernen die Kernkonzepte und einige der Herausforderungen kennen, mit denen Sie in der multimodalen KI konfrontiert werden, und erwerben grundlegende Kenntnisse über Text- und Sprachverarbeitungstechniken. In praktischen Übungen werden Sie KI-gestütztes Geschichtenerzählen, Sprache-zu-Text-Transkription und Text-zu-Sprache-Synthese auf reale Anwendungen anwenden, wie z. B. KI-generierte Hörbücher und automatische Meeting-Assistenten.
Überblick über das berufsbezogene Zertifikat RAG und Agentic AI•6 Minuten
Einführung in multimodale KI•8 Minuten
Text-to-Speech-Technologien•8 Minuten
Technologien zur Spracherkennung•7 Minuten
2 Lektüren•Insgesamt 5 Minuten
Lesen: Überblick über den Kurs•3 Minuten
Lesen: Zusammenfassung und Highlights•2 Minuten
2 Aufgaben•Insgesamt 36 Minuten
Praxis-Quiz: Einführung in die multimodale KI: Text- und Sprachverarbeitung•15 Minuten
Benotetes Quiz: Grundlagen der multimodalen AI•21 Minuten
2 App-Elemente•Insgesamt 75 Minuten
Übung: Verwenden Sie Mistral und gTTS, um Ihren persönlichen Geschichtenerzähler zu erstellen•30 Minuten
Übung: Erstellen eines Meeting-Assistenten mit Whisper, LangChain und Gradio•45 Minuten
6 Plug-ins•Insgesamt 32 Minuten
Hilfreiche Tipps für den Kursabschluss•3 Minuten
Lesen: Was ist multimodale generative KI und warum ist sie wichtig?•5 Minuten
Lesen: Was ist Computer Vision?•7 Minuten
Lesen: Textverarbeitung, Sprachverarbeitung und Text-to-Speech•7 Minuten
Lesen: Herausforderungen der multimodalen KI-Integration•5 Minuten
Spickzettel: Grundlagen der multimodalen KI•5 Minuten
Integration von Bild- und Videomodalitäten
Modul 2•2 Stunden abzuschließen
Moduldetails
In diesem Modul wird untersucht, wie KI-Prozesse visuelle Daten durch die Integration von Bildern und Videos mit Text erzeugen. Sie werden Text-zu-Bild/Bild-zu-Text- und Text-zu-Video/Video-zu-Text-Modelle, Bildunterschriften und die für effektive multimodale KI-Systeme erforderlichen Fusionstechniken untersuchen. In praktischen Übungen werden Sie modernste Modelle wie DALL-E und Sora anwenden, um Bilder und Videos aus Text-Prompts zu generieren. Darüber hinaus werden Sie ein Bildunterschriftssystem mit Metas Llama 4 implementieren und so praktische Erfahrungen mit der Kombination von Bildverarbeitungs- und Sprachmodellen für reale Anwendungen sammeln.
Verstehen von Bildunterschriften mit Meta's Llama•7 Minuten
Demo: Text-zu-Video-Generierung mit Sora von OpenAI•8 Minuten
1 Lektüre•Insgesamt 3 Minuten
Lesen: Zusammenfassung und Highlights•3 Minuten
2 Aufgaben•Insgesamt 31 Minuten
Bilderzeugung und Untertitelung•10 Minuten
Benotetes Quiz: Integration von visuellen und Videomodalitäten•21 Minuten
2 App-Elemente•Insgesamt 50 Minuten
Labor: DALL-E Bilderzeugungsanleitung für Einsteiger•20 Minuten
Übung: Aufbau eines Bilduntertitelungssystems mit watsonx und IBMs Granite•30 Minuten
3 Plug-ins•Insgesamt 35 Minuten
Lesen: Einführung in Text-zu-Video- und Bild-zu-Video-Technologien•12 Minuten
Lesen: Stärken, Grenzen und praktische Anwendungen von multimodalen Sehmodellen in realen Szenarien•8 Minuten
Spickzettel: Integration von Bild- und Videomodalitäten•15 Minuten
Erweiterte multimodale Anwendungen
Modul 3•2 Stunden abzuschließen
Moduldetails
Das letzte Modul erforscht fortgeschrittene multimodale KI-Anwendungen, die Bild-, Text- und Retrieval-basierte Systeme integrieren, um innovative Lösungen zu entwickeln. Sie tauchen ein in multimodales Retrieval und Suche, multimodale Fragebeantwortung (QA) und Chatbots und lernen, wie multimodale Retrieval-Techniken Suchmaschinen und Empfehlungssysteme verbessern. Außerdem lernen Sie, wie die Integration von visuellen und textuellen Daten die Interaktion mit Chatbots verbessert. Durch praktische Übungen werden Sie voll funktionsfähige Webanwendungen mit multimodalen Fähigkeiten unter Verwendung von Flask erstellen und dabei modernste Modelle und Frameworks anwenden
Wir bei IBM wissen, wie schnell sich die Technologie entwickelt, und sind uns bewusst, wie wichtig es für Unternehmen und Fachkräfte ist, schnell einsatzbereite, praxisnahe Fähigkeiten zu erwerben. Als marktführender Tech-Innovator setzen wir uns dafür ein, dass Sie in diesem dynamischen Umfeld erfolgreich sind. Über das IBM Skills Network bieten unsere von Experten entwickelten Schulungsprogramme in den Bereichen künstliche Intelligenz, Softwareentwicklung, Cybersicherheit, Datenwissenschaft, Unternehmensführung und mehr die grundlegenden Fähigkeiten, die Sie benötigen, um sich Ihren ersten Job zu sichern, Ihre Karriere voranzutreiben oder Ihren geschäftlichen Erfolg zu steigern. Ganz gleich, ob Sie sich selbst oder Ihr Team weiterbilden möchten, unsere Kurse, Spezialisierungen und professionellen Zertifikate vermitteln Ihnen das technische Fachwissen, das Sie und Ihr Unternehmen in einer wettbewerbsorientierten Welt auszeichnet.
Welche Jobs kann ich mit multimodalen generativen KI-Kenntnissen bekommen?
Fähigkeiten im Bereich der multimodalen generativen KI, bei der Systeme Text, Sprache, Bilder und Videos integrieren, sind sehr gefragt, z. B. als KI-Entwickler, Ingenieur für Maschinelles Lernen, multimodaler KI-Forscher und Full Stack-Entwickler, die sich auf KI-gestützte Benutzererfahrungen spezialisieren.
Brauche ich Erfahrung mit Maschinellem Lernen, um multimodale generative KI-Apps zu entwickeln?
Nicht unbedingt. Als Python-Entwickler können Sie mit Tools wie IBM watsonx.ai, Flask und Gradio mit der Entwicklung generativer KI beginnen - ohne fortgeschrittene ML-Kenntnisse.
Wie unterscheidet sich die Entwicklung multimodaler generativer KI-Apps von der traditionellen App-Entwicklung?
Multimodale KI-Apps gehen über die typische Entwicklung einer Apphinaus, indem sie multimodale große Sprachmodelle (MLLMs) und medienbasierte Eingaben wie Sprache, Bilder und Videos einbeziehen. Sie werden weiterhin vertraute Tools wie Python, Flaskund Gradio verwenden, aber Sie werden auch lernen, Modelle für Aufgaben wie Transkription, Bilderzeugung und KI-gestütztes Storytelling zu integrieren und zu orchestrieren.
Wann werde ich Zugang zu den Vorlesungen und Aufgaben haben?
Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Was bekomme ich, wenn ich dieses Zertifikat abonniere?
Wenn Sie sich für den Kurs anmelden, erhalten Sie Zugang zu allen Kursen des Zertifikats, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird zu Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen.