Un système complet d'apprentissage par renforcement (Capstone)

Économisez sur les compétences qui vous font briller avec 40 % de réduction sur 3 mois de Coursera Plus. Économisez maintenant

Un système complet d'apprentissage par renforcement (Capstone)

Ce cours fait partie de Spécialisation "Apprentissage par renforcement"

Instructeurs : Martha White

25 375 déjà inscrits

Inclus avec

6 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

653 avis

niveau Intermédiaire

Expérience recommandée

2 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

6 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

653 avis

niveau Intermédiaire

Expérience recommandée

2 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

Compétences que vous acquerrez

Catégorie : Systèmes agentiques
Catégorie : Algorithmes
Catégorie : Développement de systèmes
Catégorie : Apprentissage automatique
Catégorie : Réseaux neuronaux artificiels
Catégorie : Optimisation du modèle
Catégorie : Méthodes d'apprentissage automatique
Catégorie : Modèle de formation
Catégorie : Architecture de la solution
Catégorie : Optimisation des performances
Catégorie : Algorithmes d'apprentissage automatique
Catégorie : Évaluation du modèle
Catégorie : Ingénierie des fonctionnalités
Catégorie : Apprentissage par renforcement
Catégorie : Modèle de Markov

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

2 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Apprentissage par renforcement"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 6 modules dans ce cours

Dans ce dernier cours, vous rassemblerez vos connaissances des cours 1, 2 et 3 pour mettre en œuvre une solution RL complète à un problème. Ce projet vous permettra de voir comment chaque composant - formulation du problème, sélection de l'algorithme, sélection des paramètres et conception de la représentation - s'intègre dans une solution complète, et comment faire des choix appropriés lors du déploiement du RL dans le monde réel. Ce projet vous demandera d'implémenter à la fois l'environnement pour stimuler votre problème et un agent de contrôle avec une approximation de fonction de réseau neuronal. En outre, vous mènerez une étude scientifique de votre système d'apprentissage afin de développer votre capacité à évaluer la robustesse des agents RL. Pour utiliser le RL dans le monde réel, il est essentiel de (a) formaliser correctement le problème en tant que MDP, (b) sélectionner les algorithmes appropriés, (c) identifier les choix dans votre implémentation qui auront un impact important sur la performance et (d) valider le comportement attendu de vos algorithmes. Ce cours est utile pour tous ceux qui prévoient d'utiliser le RL pour résoudre des problèmes réels. Pour réussir ce cours, vous devrez avoir suivi les cours 1, 2 et 3 de cette Specializations ou l'équivalent. A la fin de ce cours, vous serez en mesure de :

Bienvenue au dernier cours de synthèse de la Specialization Reinforcement Learning ! !!

Inclus

2 vidéos2 lectures1 sujet de discussion

Cette semaine, vous lirez une description d'un problème et la traduirez en un PDM. Vous compléterez le code squelette pour cet environnement, afin d'obtenir un PDM complet à utiliser dans ce projet de fin d'études.

Inclus

4 vidéos1 devoir de programmation

4 vidéosTotal 23 minutes

Réunion initiale avec Martha : formalisation du problème4 minutes
Andy Barto : Qu'est-ce que les traces d'éligibilité et pourquoi sont-elles appelées ainsi ?9 minutes
Passons en revue les processus de décision de Markov : Processus de décision de Markov7 minutes
Passons en revue les exemples de tâches épisodiques et continues : Exemples de tâches épisodiques et continues3 minutes

1 devoir de programmationTotal 180 minutes

MoonShot Technologies180 minutes

Cette semaine, vous choisirez parmi trois algorithmes, afin d'apprendre une politique pour l'environnement. Vous réfléchirez et discuterez de la pertinence de chaque algorithme pour cet environnement.

Inclus

7 vidéos1 devoir

7 vidéosTotal 40 minutes

Rencontre avec Niko : Choix de l'algorithme d'apprentissage3 minutes
Passons en revue : Sarsa attendu4 minutes
Faisons le point : Qu'est-ce que l'apprentissage par questions et réponses ?3 minutes
Passons à l'action : Récompense moyenne - Une nouvelle façon de formuler les problèmes de contrôle10 minutes
Passons à la loupe : Algorithme acteur-critique5 minutes
Csaba Szepesvari sur le paysage des problèmes9 minutes
Andy et Rich : Conseils aux étudiants5 minutes

1 devoir

Choisir le bon algorithme0 minutes

Cette semaine, vous identifierez les paramètres clés qui affectent les performances de votre agent. L'objectif est de comprendre l'espace des options, pour vous permettre ensuite de choisir le paramètre que vous étudierez en profondeur pour votre agent.

Inclus

4 vidéos1 devoir

4 vidéosTotal 25 minutes

Réunion sur l'architecture des agents avec Martha : aperçu des choix de conception6 minutes
Passons en revue : Approximation non linéaire avec les réseaux neuronaux4 minutes
Drew Bagnell sur l'identification du système et le contrôle optimal7 minutes
Susan Murphy sur la LR dans le domaine de la santé mobile8 minutes

1 devoirTotal 40 minutes

Impact du choix des paramètres dans RL40 minutes

Cette semaine, vous mettrez en œuvre votre agent en utilisant Expected Sarsa ou Q-learning avec RMSProp et des réseaux neuronaux. Pour utiliser les réseaux neuronaux, vous devrez utiliser une stratégie de sélection de taille de pas plus prudente, c'est pourquoi vous utiliserez RMSProp. Vous vérifierez également l'exactitude de votre agent.

Inclus

6 vidéos1 devoir de programmation

6 vidéosTotal 29 minutes

Rencontre avec Adam : bien choisir les détails de l'agent5 minutes
Passons en revue : Stratégies d'optimisation pour les NN5 minutes
Passons en revue : Sarsa attendu avec approximation de fonction2 minutes
Passons en revue : Dyna et Q-learning dans un labyrinthe simple5 minutes
Rencontre avec Martha : expérience approfondie Replay5 minutes
Martin Riedmiller sur le cadre "Collect and Infer" pour une RL efficace sur le plan des données7 minutes

1 devoir de programmationTotal 480 minutes

Mettre en place votre agent480 minutes

Cette semaine, vous identifierez un paramètre à étudier pour votre agent. Une fois que vous aurez sélectionné le paramètre à étudier, nous vous fournirons une fourchette de valeurs et des valeurs spécifiques pour d'autres paramètres. Vous écrirez un script pour faire fonctionner votre agent et votre environnement sur l'ensemble des paramètres, afin de déterminer les performances en fonction de ces paramètres. Vous aurez une idée de l'impact des paramètres sur les performances de l'agent. Vous pourrez également visualiser les agents que vous aurez appris. Votre étude des paramètres consistera en un tableau de valeurs dont nous vérifierons l'exactitude.

Inclus

6 vidéos1 devoir de programmation

6 vidéosTotal 29 minutes

Rencontre avec Adam : études de paramètres en RL6 minutes
Passons à l'action : Comparaison entre TD et Monte Carlo6 minutes
Joelle Pineau à propos de RL that Matters9 minutes
Rencontre avec Martha : discuter de vos résultats2 minutes
Synthèse du cours2 minutes
Synthèse de la spécialisation3 minutes

1 devoir de programmationTotal 60 minutes

Compléter l'étude des paramètres60 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Évaluations de l’enseignant

(118 évaluations)

Martha White

University of Alberta

4 Cours115 362 apprenants

Adam White

University of Alberta

4 Cours115 362 apprenants

Offert par

University of Alberta

Alberta Machine Intelligence Institute

En savoir plus sur Apprentissage automatique

Statut : Essai gratuit
Packt
Deep Reinforcement Learning Hands-On
Spécialisation
Statut : Essai gratuit
University of Alberta
Fundamentals of Reinforcement Learning
Cours
Statut : Prévisualisation
Simplilearn
Fundamental of Reinforcement Training
Cours
Statut : Essai gratuit
New York University
Reinforcement Learning in Finance
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

5 stars
78,10 %
4 stars
15,77 %
3 stars
5,05 %
2 stars
0,61 %
1 star
0,45 %

Affichage de 3 sur 653

Révisé le 10 juil. 2020

Strongly recommend this course to others. The project could be a little more challenging though. Thanks, Martha, Adam, and RAs, for your good teaching!

Révisé le 2 août 2020

One of the most amazing set of courses that I have ever been through. This neither makes the stuff look difficult nor does it compromise on quality, absolutely the best.

Révisé le 26 févr. 2020

Great course for learning the fundamentals. I liked that it tied into function approximation for deep reinforcement learning. The text book made the fundamental concepts more clear.

Voir plus d’avis

Foire Aux Questions

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.