IBM

Generative AI Advanced Fine-Tuning for LLMs

IBM

Generative AI Advanced Fine-Tuning for LLMs

Joseph Santarcangelo
Ashutosh Sagar
Wojciech 'Victor' Fulmyk

Dozenten: Joseph Santarcangelo

23.347 bereits angemeldet

Bei Coursera Plus enthalten

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

132 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan
9 Stunden zu vervollständigen
In Ihrem eigenen Lerntempo lernen
88%
Den meisten Lernenden hat dieser Kurs gefallen
Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

132 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan
9 Stunden zu vervollständigen
In Ihrem eigenen Lerntempo lernen
88%
Den meisten Lernenden hat dieser Kurs gefallen

Was Sie lernen werden

  • In-demand generative AI engineering skills in fine-tuning LLMs that employers are actively seeking

  • Instruction tuning and reward modeling using Hugging Face, plus understanding LLMs as policies and applying RLHF techniques

  • Direct preference optimization (DPO) with partition function and Hugging Face, including how to define optimal solutions to DPO problems

  • Using proximal policy optimization (PPO) with Hugging Face to build scoring functions and tokenize datasets for fine-tuning

Kompetenzen, die Sie erwerben

  • Kategorie: Generative Model Architectures
  • Kategorie: Fine-tuning
  • Kategorie: Machine Learning Methods
  • Kategorie: Model Training
  • Kategorie: Model Optimization
  • Kategorie: Reinforcement Learning
  • Kategorie: Large Language Modeling
  • Kategorie: Model Evaluation

Werkzeuge, die Sie lernen werden

  • Kategorie: Generative AI

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

5 Aufgaben

Unterrichtet in Englisch
91% of learners achieved a positive career outcome

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

 Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist als Teil verfügbar
Wenn Sie sich für diesen Kurs anmelden, müssen Sie auch ein bestimmtes Programm auswählen.
  • Lernen Sie neue Konzepte von Branchenexperten
  • Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
  • Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
  • Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 2 Module

In this module, you will explore advanced techniques for fine-tuning large language models (LLMs) through instruction tuning and reward modeling. You’ll begin by defining instruction tuning and learning its process, including dataset loading, text generation pipelines, and training arguments using Hugging Face. You’ll then delve into reward modeling, where you’ll preprocess datasets, apply low-rank adaptation (LoRA) configurations, and quantify quality responses to guide model optimization and align with human preferences. You’ll also describe and utilize reward trainers and reward model loss functions. In addition, the hands-on labs will reinforce your learning with practical experience in instruction tuning and reward modeling, empowering you to effectively customize LLMs for targeted tasks.

Das ist alles enthalten

6 Videos4 Lektüren2 Aufgaben2 App-Elemente3 Plug-ins

In this module, you will explore advanced techniques for fine-tuning large language models (LLMs) using reinforcement learning from human feedback (RLHF), proximal policy optimization (PPO), and direct preference optimization (DPO). You’ll begin by describing how LLMs function as probabilistic distributions and how these can be transformed into policies to generate responses based on input text. You’ll examine the relationship between policies and language models as a function of parameters, such as omega, and how rewards can be calculated using human feedback. This includes training response samples, evaluating agent performance, and defining scoring functions for tasks like sentiment analysis using PPO. You’ll also be able to explain PPO configuration, learning rates, and the PPO trainer’s role in optimizing chatbot responses using Hugging Face tools. The module further introduces DPO, a more direct and efficient way to align models with human preferences. While complex topics like PPO and reinforcement learning are introduced, you are not expected to understand them in depth for this course. The hands-on labs in this module will allow you to practice applying RLHF and DPO. To support your learning, a cheat sheet and glossary are included for quick reference.

Das ist alles enthalten

10 Videos5 Lektüren3 Aufgaben2 App-Elemente4 Plug-ins

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Lehrkraftbewertungen
(16 Bewertungen)
Joseph Santarcangelo
IBM
36 Kurse2.473.334 Lernende

von

IBM

Mehr von Machine Learning entdecken

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

  • 5 stars

    75,18 %

  • 4 stars

    8,27 %

  • 3 stars

    3,75 %

  • 2 stars

    4,51 %

  • 1 star

    8,27 %

Zeigt 3 von 132 an

AV

Geprüft am 10. März 2025

MK

Geprüft am 29. Apr. 2026

SG

Geprüft am 20. Aug. 2025

Häufig gestellte Fragen