Puis-je télécharger le travail depuis mon projet une fois que je l'ai terminé ?

Oui, vous pouvez télécharger et conserver tout fichier que vous avez créé à partir du projet. Pour cela, assurez-vous d’enregistrer tous les fichiers et travaux sur votre appareil avant de quitter l’environnement du produit.

Une aide financière est-elle disponible ?

Aucune aide financière n'est disponible pour les projets.

Puis-je assister à un projet en tant qu’auditeur libre ?

L'audit n'est pas disponible pour les projets.

De quelle expérience ai-je besoin pour réaliser ce projet ?

En haut de la page, vous pouvez consulter le niveau d’expérience recommandé pour ce projet.

Puis-je terminer ce projet avec mon navigateur web, au lieu d’installer un logiciel spécial ?

Oui, tout ce dont vous avez besoin pour terminer votre projet sera présent dans votre navigateur.

Reinforcement Learning from Human Feedback

Économisez sur les compétences qui vous font briller avec 40 % de réduction sur 3 mois de Coursera Plus. Économisez maintenant

Ce projet n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues. Consultez les langues disponibles.

Reinforcement Learning from Human Feedback

Instructeur : Nikita Namjoshi

3 417 déjà inscrits

Projet

Développez des compétences professionnelles recherchées grâce à des instructions étape par étape

4.7

(33 avis)

niveau Intermédiaire

Expérience recommandée

1 hour

Apprenez à votre propre rythme

Un apprentissage pratique

Projet

Développez des compétences professionnelles recherchées grâce à des instructions étape par étape

4.7

(33 avis)

niveau Intermédiaire

Expérience recommandée

1 hour

Apprenez à votre propre rythme

Un apprentissage pratique

Ce que vous apprendrez

Get a conceptual understanding of Reinforcement Learning from Human Feedback (RLHF), as well as the datasets needed for this technique.
Fine-tune the Llama 2 model using RLHF with the open source Google Cloud Pipeline Components Library.
Evaluate tuned model performance against the base model with evaluation methods.

Compétences que vous pratiquerez

Catégorie : Reinforcement Learning
Catégorie : Model Optimization
Catégorie : Model Training
Catégorie : Model Evaluation
Catégorie : Large Language Modeling
Catégorie : Fine-tuning

Détails à connaître

Enseigné en Anglais

Aucun téléchargement ou installation requis(e)

Disponible uniquement sur ordinateur

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Apprendre, pratiquer et appliquer des compétences prêtes à l’emploi en moins de 2 heures

Bénéficiez d’une formation par des experts du secteur
Gagnez en expérience pratique en effectuant des tâches professionnelles du monde réel

À propos de ce projet

Large language models (LLMs) are trained on human-generated text, but additional methods are needed to align an LLM with human values and preferences.

Reinforcement Learning from Human Feedback (RLHF) is currently the main method for aligning LLMs with human values and preferences. RLHF is also used for further tuning a base LLM to align with values and preferences that are specific to your use case. In this course, you will gain a conceptual understanding of the RLHF training process, and then practice applying RLHF to tune an LLM. You will: 1. Explore the two datasets that are used in RLHF training: the “preference” and “prompt” datasets. 2. Use the open source Google Cloud Pipeline Components Library, to fine-tune the Llama 2 model with RLHF. 3. Assess the tuned LLM against the original base model by comparing loss curves and using the “Side-by-Side (SxS)” method.

Instructeur

Évaluations de l’enseignant

(8 évaluations)

Nikita Namjoshi

DeepLearning.AI

3 Cours7 929 apprenants

Offert par

DeepLearning.AI

Méthode d’apprentissage

Apprentissage pratique basé sur des projets
Mettez en pratique de nouvelles compétences en effectuant des tâches professionnelles à l’aide d’instructions étape par étape.
Aucun téléchargement ou installation requis(e)
Accédez aux outils et aux ressources dont vous avez besoin dans un environnement cloud.
Disponible uniquement sur ordinateur de bureau
Ce projet est conçu pour les ordinateurs portables ou de bureau disposant d’une connexion internet fiable, et non pour les appareils mobiles.

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

5 stars
69,69 %
4 stars
27,27 %
3 stars
3,03 %
2 stars
0 %
1 star
0 %

Affichage de 3 sur 33

Révisé le 18 juin 2025

better to be expanded a bit, but overall, it is super course

Révisé le 11 janv. 2025

Overall worth a shot. Not in depth but good overview

Voir plus d’avis

Vous aimerez peut-être aussi

University of Alberta
Fundamentals of Reinforcement Learning
Cours
Pearson
Quick Start Guide to Large Language Models (LLMs): Unit 3
Cours
Edureka
Fine-Tuning & Optimizing Large Language Models
Cours
Columbia University
Decision Making and Reinforcement Learning
Cours

Foire Aux Questions

Dans les projets, vous réaliserez une activité ou un scénario en suivant un ensemble d’instructions au sein d’un environnement pratique et interactif. Les projets sont réalisés dans un environnement Cloud réel et dans des instances réelles de divers produits, plutôt que dans un environnement de simulation ou de démonstration.

En achetant un projet, vous obtenez tout ce dont vous avez besoin pour terminer ce projet, y compris un accès temporaire à tout produit nécessaire pour terminer le projet.

Même si les Projets sont techniquement disponibles sur les appareils mobiles, nous vous conseillons vivement d’effectuer les projets sur un ordinateur portable ou de bureau uniquement.

Plus de questions

Visitez le Centre d'Aide pour les Étudiants

Reinforcement Learning from Human Feedback

Ce projet n'est pas disponible en Français (France)

Reinforcement Learning from Human Feedback

Ce que vous apprendrez

Compétences que vous pratiquerez

Détails à connaître

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Apprendre, pratiquer et appliquer des compétences prêtes à l’emploi en moins de 2 heures