Prévision et contrôle par approximation de fonction

Économisez sur les compétences qui vous font briller avec 40 % de réduction sur 3 mois de Coursera Plus. Économisez maintenant

Prévision et contrôle par approximation de fonction

Ce cours fait partie de Spécialisation "Apprentissage par renforcement"

Instructeurs : Martha White

29 405 déjà inscrits

Inclus avec

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

848 avis

niveau Intermédiaire

Expérience recommandée

Planning flexible

2 semaines à 10 heures une semaine

Apprenez à votre propre rythme

90%

La plupart des étudiants ont apprécié ce cours

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

848 avis

niveau Intermédiaire

Expérience recommandée

Planning flexible

2 semaines à 10 heures une semaine

Apprenez à votre propre rythme

90%

La plupart des étudiants ont apprécié ce cours

Compétences que vous acquerrez

Catégorie : Distribution de probabilité
Catégorie : Pseudocode
Catégorie : Algorithmes
Catégorie : Réseaux neuronaux artificiels
Catégorie : Algorithmes d'apprentissage automatique
Catégorie : Algèbre linéaire
Catégorie : Apprentissage par renforcement
Catégorie : Architecture du réseau
Catégorie : Modèle de formation
Catégorie : Ingénierie des fonctionnalités
Catégorie : Méthodes d'apprentissage automatique
Catégorie : Apprentissage profond
Catégorie : Apprentissage automatique
Catégorie : Apprentissage supervisé

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

4 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Apprentissage par renforcement"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 5 modules dans ce cours

Dans ce cours, vous apprendrez à résoudre des problèmes avec des espaces d'état larges, de haute dimension et potentiellement infinis. Vous verrez que l'estimation des fonctions de valeur peut être considérée comme un problème d'apprentissage supervisé - l'approximation de fonction - vous permettant de construire des agents qui équilibrent soigneusement la généralisation et la discrimination afin de maximiser la récompense. Nous commencerons ce voyage en étudiant comment nos méthodes d'évaluation ou de prédiction des politiques, comme Monte Carlo et TD, peuvent être étendues au cadre de l'approximation des fonctions. Vous apprendrez les techniques de construction de caractéristiques pour le RL, et l'apprentissage de représentation via les réseaux neuronaux et le backprop. Nous conclurons ce cours par une plongée en profondeur dans les méthodes de gradient de politique, un moyen d'apprendre des politiques directement sans apprendre une fonction de valeur. Dans ce cours, vous résoudrez deux tâches de contrôle d'état continu et étudierez les avantages des méthodes de gradient de politique dans un environnement d'action continue.

Prérequis : Ce cours s'appuie fortement sur les fondamentaux des cours 1 et 2, et les apprenants doivent les avoir suivis avant de commencer ce cours. Les apprenants doivent également être à l'aise avec les probabilités et les attentes, l'algèbre linéaire de base, le calcul de base, Python 3.0 (au moins 1 an), et l'implémentation d'algorithmes à partir de pseudocodes. A la fin de ce cours, vous serez capable de : -Comprendre comment utiliser des approches d'apprentissage supervisé pour approximer des fonctions de valeur -Comprendre les objectifs de prédiction (estimation de valeur) sous approximation de fonction -Implémenter des TD avec approximation de fonction (agrégation d'état), comprendre les objectifs de la prédiction (estimation de la valeur) dans le cadre de l'approximation de fonction -Mettre en œuvre la TD avec l'approximation de fonction (agrégation d'états), dans un environnement avec un espace d'états infini (espace d'états continu)Contraster les formulations de problèmes actualisés pour le contrôle avec une formulation de problème de récompense moyenne -Implémenter Sarsa attendu et Q-learning avec approximation de fonction sur une tâche de contrôle d'état continu -Comprendre les objectifs pour estimer directement les politiques (objectifs de gradient de politique) -Implémenter une méthode de gradient de politique (appelée Actor-Critic) sur un environnement d'état discret

Bienvenue au troisième cours de la spécialisation en apprentissage par renforcement : Prédiction et contrôle avec approximation de fonction, qui vous est offert par l'Université de l'Alberta, Onlea et Coursera. Dans ce module pré-cours, vous serez présenté à vos instructeurs et aurez un aperçu de ce que le cours vous réserve. N'oubliez pas de vous présenter à vos camarades de classe dans la section "Meet and Greet" !

Inclus

2 vidéos2 lectures1 sujet de discussion

Cette semaine, vous apprendrez à estimer une fonction de valeur pour une politique donnée, lorsque le nombre d'états est beaucoup plus important que la mémoire dont dispose l'agent. Vous apprendrez à spécifier une forme paramétrique de la fonction de valeur, à spécifier une fonction objectif et à utiliser la descente de gradient pour estimer des valeurs à partir de l'interaction avec le monde.

Inclus

13 vidéos2 lectures1 devoir1 devoir de programmation1 sujet de discussion

13 vidéosTotal 69 minutes

Passer aux fonctions paramétrées7 minutes
Généralisation et discrimination5 minutes
L'estimation de la valeur en tant qu'apprentissage supervisé4 minutes
L'objectif de l'erreur de valeur4 minutes
Introduction à la descente en gradient7 minutes
Gradient Monte pour l'évaluation des politiques6 minutes
Agrégation d'états avec Monte Carlo8 minutes
TD semi-gradient pour l'évaluation des politiques4 minutes
Comparaison entre TD et Monte Carlo avec agrégation d'états5 minutes
Doina Precup : Construire des connaissances pour les agents d'IA avec l'apprentissage par renforcement7 minutes
La mise à jour de la TD linéaire4 minutes
Le véritable objectif de la DT5 minutes
Résumé de la première semaine4 minutes

2 lecturesTotal 50 minutes

Module 1 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire : Prédiction en cours de route avec approximation40 minutes

1 devoirTotal 30 minutes

Prédiction de la politique avec approximation30 minutes

1 devoir de programmationTotal 120 minutes

TD(0) semi-gradient avec agrégation d'états120 minutes

1 sujet de discussionTotal 10 minutes

De bons objectifs pour le contrôle10 minutes

Les caractéristiques utilisées pour construire les estimations de valeur de l'agent sont peut-être la partie la plus cruciale d'un système d'apprentissage réussi. Dans ce module, nous discutons de deux stratégies de base pour la construction des caractéristiques : (1) des bases fixes qui forment une partition exhaustive de l'entrée, et (2) l'adaptation des caractéristiques pendant que l'agent interagit avec le monde via les réseaux neuronaux et la rétropropagation. Dans l'évaluation notée de cette semaine, vous résoudrez une tâche de prédiction d'état simple mais infinie à l'aide d'un réseau neuronal et de l'apprentissage par TD.

Inclus

11 vidéos2 lectures1 devoir1 devoir de programmation1 sujet de discussion

11 vidéosTotal 52 minutes

Codage grossier3 minutes
Propriétés de généralisation du codage grossier5 minutes
Codage des carreaux3 minutes
Utilisation du codage des tuiles dans la TD5 minutes
Qu'est-ce qu'un réseau neuronal ?3 minutes
Approximation non linéaire avec des réseaux neuronaux4 minutes
Réseaux neuronaux profonds3 minutes
Descente de gradient pour la formation des réseaux neuronaux9 minutes
Stratégies d'optimisation pour les réseaux nationaux5 minutes
David Silver sur Deep Learning + RL = AI ?9 minutes
Bilan de la semaine 22 minutes

2 lecturesTotal 50 minutes

Objectifs d'apprentissage du module 210 minutes
Lecture hebdomadaire : Prédiction on-policy avec approximation II40 minutes

1 devoirTotal 28 minutes

Construire des caractéristiques pour la prédiction28 minutes

1 devoir de programmationTotal 180 minutes

TD semi-gradient avec un réseau neuronal180 minutes

1 sujet de discussionTotal 10 minutes

Construire des caractéristiques pour la prédiction10 minutes

Cette semaine, vous verrez que les concepts et les outils introduits dans les modules 2 et 3 permettent une extension directe des méthodes de contrôle TD classiques au cadre de l'approximation de fonction. En particulier, vous apprendrez comment trouver la politique optimale dans les MDP à état infini en combinant simplement les méthodes de TD semi-gradient avec l'itération de politique généralisée, ce qui donne des méthodes de contrôle classiques comme Q-learning et Sarsa. Nous concluons par une discussion sur une nouvelle formulation de problème pour la RL - la récompense moyenne - qui sera sans aucun doute utilisée dans de nombreuses applications de la RL à l'avenir.

Inclus

7 vidéos2 lectures1 devoir1 devoir de programmation2 sujets de discussion

7 vidéosTotal 41 minutes

Sarsa épisodique avec approximation de fonction4 minutes
Sarsa épisodique dans une voiture de montagne5 minutes
Sarsa attendu avec approximation de fonction2 minutes
Exploration sous approximation de fonction4 minutes
Récompense moyenne : Une nouvelle façon de formuler les problèmes de contrôle10 minutes
Satinder Singh sur les récompenses intrinsèques13 minutes
Bilan de la semaine 33 minutes

2 lecturesTotal 50 minutes

Module 3 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire : Contrôle des politiques par approximation40 minutes

1 devoirTotal 40 minutes

Contrôle par approximation40 minutes

1 devoir de programmationTotal 180 minutes

Approximation et contrôle des fonctions180 minutes

2 sujets de discussionTotal 20 minutes

Contrôle avec l'AF n° 110 minutes
Contrôle avec FA #210 minutes

Tous les algorithmes que vous avez étudiés jusqu'à présent estiment une fonction de valeur en tant qu'étape intermédiaire vers la recherche d'une politique optimale. Une stratégie alternative consiste à apprendre directement les paramètres de la politique. Cette semaine, vous découvrirez ces méthodes de gradient de politique et leurs avantages par rapport aux méthodes basées sur la fonction de valeur. Vous apprendrez également comment les méthodes de gradient de politique peuvent être utilisées pour trouver la politique optimale dans des tâches avec des espaces d'état et d'action continus.

Inclus

11 vidéos2 lectures1 devoir1 devoir de programmation1 sujet de discussion

11 vidéosTotal 55 minutes

Apprentissage direct des politiques6 minutes
Avantages de la paramétrisation des politiques5 minutes
L'objectif des politiques d'apprentissage5 minutes
Théorème du gradient de politique5 minutes
Estimation du gradient politique5 minutes
Algorithme acteur-critique5 minutes
Critique d'acteur avec politiques Softmax4 minutes
Démonstration avec l'acteur-critique6 minutes
Politiques gaussiennes pour les actions continues7 minutes
Résumé de la semaine 44 minutes
Félicitations ! Aperçu du cours 42 minutes

2 lecturesTotal 50 minutes

Module 4 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire : Méthodes de gradient de politique40 minutes

1 devoirTotal 45 minutes

Méthodes de gradient de politique45 minutes

1 devoir de programmationTotal 180 minutes

Récompense moyenne Softmax Acteur-Critique utilisant le codage par tuiles180 minutes

1 sujet de discussionTotal 10 minutes

Méthodes de gradient de politique10 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Évaluations de l’enseignant

(112 évaluations)

Martha White

University of Alberta

4 Cours115 309 apprenants

Adam White

University of Alberta

4 Cours115 309 apprenants

Offert par

University of Alberta

Alberta Machine Intelligence Institute

En savoir plus sur Apprentissage automatique

University of Alberta
Méthodes d'apprentissage par échantillonnage
Cours
University of Alberta
Principes de l'apprentissage par renforcement
Cours
University of Alberta
Un système complet d'apprentissage par renforcement (Capstone)
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

5 stars
84,58 %
4 stars
12,23 %
3 stars
2,11 %
2 stars
0,70 %
1 star
0,35 %

Affichage de 3 sur 848

Révisé le 9 nov. 2019

Great course. Slightly more complex than courses 1 and 2, but a huge improvement in terms of applicability to real-world situations.

Révisé le 24 juin 2020

Surely a level-up from the previous courses. This course adds to and extends what has been learned in courses 1 & 2 to a greater sphere of real-world problems. Great job Prof. Adam and Martha!

Révisé le 31 mai 2020

I had been reading the book of Reinforcement Learning An Introduction by myself. This class helped me to finish the study with a great learning environment. Thank you, Martha and Adam!

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.