Entscheidungsfindung und Reinforcement Learning

Entscheidungsfindung und Reinforcement Learning

Dozent: Tony Dear

4.684 bereits angemeldet

Bei Mehr erfahren enthalten

Fragen Sie Coursera

8 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

24 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

5 Wochen zu vervollständigen

unter 10 Stunden pro Woche

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

8 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

24 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

5 Wochen zu vervollständigen

unter 10 Stunden pro Woche

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

Zuordnung zwischen qualitativen Präferenzen und geeigneten quantitativen Hilfsmitteln.
Modellieren Sie nicht-assoziative und assoziative sequentielle Entscheidungsprobleme mit mehrarmigen Bandit-Problemen bzw. Markov-Entscheidungsprozessen
Implementierung von Algorithmen zur dynamischen Programmierung, um optimale Strategien zu finden
Implementierung grundlegender Algorithmen zum Verstärkungslernen unter Verwendung von Monte-Carlo- und Zeitdifferenzmethoden

Kompetenzen, die Sie erwerben

Kategorie: Methoden des maschinellen Lernens
Kategorie: Analyse
Kategorie: Tiefes Lernen
Kategorie: Entscheidungsintelligenz
Kategorie: Statistische Methoden
Kategorie: Reinforcement Learning
Kategorie: Algorithmen
Kategorie: Markov-Modell
Kategorie: Künstliche Intelligenz und maschinelles Lernen (AI/ML)
Kategorie: Algorithmen für maschinelles Lernen
Kategorie: Maschinelles Lernen

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

8 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

In diesem Kurs gibt es 8 Module

Dieser Kurs ist eine Einführung in die sequentielle Entscheidungsfindung und das Verstärkungslernen. Wir beginnen mit einer Diskussion der Nutzentheorie, um zu lernen, wie Präferenzen für die Entscheidungsfindung dargestellt und modelliert werden können. Wir modellieren zunächst einfache Entscheidungsprobleme als mehrarmige Bandit-Probleme und diskutieren verschiedene Ansätze zur Bewertung von Feedback. Anschließend modellieren wir Entscheidungsprobleme als endliche Markov-Entscheidungsprozesse (MDPs) und erörtern deren Lösungen durch dynamische Programmieralgorithmen. Wir gehen auf den Begriff der partiellen Beobachtbarkeit in realen Problemen ein, die durch POMDPs modelliert und dann durch Online-Planungsmethoden gelöst werden. Schließlich führen wir das Problem des Verstärkungslernens ein und diskutieren zwei Paradigmen: Monte-Carlo-Methoden und zeitliches Differenzlernen. Wir schließen den Kurs mit der Feststellung, dass die beiden Paradigmen auf einem Spektrum von n-schrittigen temporalen Differenzmethoden liegen. Die Betonung von Algorithmen und Beispielen wird ein wichtiger Bestandteil dieses Kurses sein.

Willkommen zu Entscheidungsfindung und Reinforcement Learning! In dieser Woche gibt Ihnen Professor Tony Dear einen Überblick über den Kurs. Außerdem erhalten Sie einen Leitfaden, der Sie bei der Modellierung von sequentiellen Entscheidungsproblemen und der Implementierung von Algorithmen des Verstärkungslernens unterstützt.

Das ist alles enthalten

6 Videos6 Lektüren1 Aufgabe1 Programmieraufgabe3 Diskussionsthemen1 Plug-in

6 VideosInsgesamt 39 Minuten

Einführung in die Entscheidungsfindung und das Reinforcement Learning2 Minuten
Kurs Logistik3 Minuten
1.1 Rationale Agenten und die Nutzentheorie9 Minuten
1.2 Präferenzen und Axiome der Nutzentheorie9 Minuten
1.3 Unsichere und Multi-Attribut-Dienstprogramme10 Minuten
1.4 Wert der perfekten Information7 Minuten

6 LektürenInsgesamt 60 Minuten

Kurs-Lehrplan10 Minuten
Über den Kursleiter10 Minuten
Richtlinie für akademische Ehrlichkeit10 Minuten
Diskussionsforum Etikette10 Minuten
Umfrage vor dem Kurs10 Minuten
Materialien zur Woche 1 Lektion10 Minuten

1 AufgabeInsgesamt 30 Minuten

Nützlichkeitstheorie30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Nützlichkeitstheorie180 Minuten

3 DiskussionsthemenInsgesamt 30 Minuten

Stellen Sie sich vor!10 Minuten
Diskussion über die Nutzentheorie10 Minuten
Woche 1 Fragen und Feedback10 Minuten

1 Plug-inInsgesamt 15 Minuten

Umfrage vor dem Kurs15 Minuten

Willkommen zu Woche 2! In dieser Woche werden wir uns mit mehrarmigen Banditenproblemen beschäftigen, einer Art von Optimierungsproblem, bei dem der Algorithmus ein Gleichgewicht zwischen Erkundung und Ausbeutung herstellt, um die Belohnungen zu maximieren. Zu den Themen gehören Aktionswerte und Stichprobenmittelwertschätzung, 𝜀-greedy Aktionsauswahl und die obere Vertrauensgrenze. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgabe benötigen.

Das ist alles enthalten

3 Videos1 Lektüre1 Aufgabe1 Programmieraufgabe2 Diskussionsthemen

3 VideosInsgesamt 36 Minuten

2.1 Mehrarmige Banditen und Aktionswerte9 Minuten
2.2 Ɛ-Greedy Action Auswahl13 Minuten
2.3 Oberes Konfidenzintervall14 Minuten

1 LektüreInsgesamt 10 Minuten

Materialien zur Woche 2 Lektion10 Minuten

1 AufgabeInsgesamt 30 Minuten

Probleme mit mehrarmigen Banditen30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Probleme mit mehrarmigen Banditen180 Minuten

2 DiskussionsthemenInsgesamt 20 Minuten

Diskussion über mehrarmige Banditen10 Minuten
Woche 2 Fragen und Feedback10 Minuten

Willkommen zu Woche 3! In dieser Woche werden wir uns auf die Grundlagen des Markov-Entscheidungsprozesses konzentrieren, einschließlich Belohnungen, Nutzen, Diskontierung, Strategien, Wertfunktionen und Bellman-Gleichungen. Sie werden sequentielle Entscheidungsprobleme modellieren, die Auswirkungen von Belohnungen und Diskontierungsfaktoren auf die Ergebnisse verstehen, Strategien und Wertfunktionen definieren und Bellman-Gleichungen für optimale Lösungen schreiben. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgaben benötigen.

Das ist alles enthalten

6 Videos1 Lektüre1 Aufgabe1 Programmieraufgabe3 Diskussionsthemen

6 VideosInsgesamt 36 Minuten

3.1 Markov-Entscheidungsprozess-Rahmen4 Minuten
3.2 Gridworld Beispiel8 Minuten
3.3 Belohnungen, Dienstprogramme und Rabatte7 Minuten
3.4 Politiken und Wertfunktionen6 Minuten
3.5 Beispiel: Mini-Gridworld5 Minuten
3.6 Bellman-Optimalitätsgleichungen4 Minuten

1 LektüreInsgesamt 10 Minuten

Materialien zur Woche 3 Lektion10 Minuten

1 AufgabeInsgesamt 30 Minuten

Sequentielle Entscheidungsprobleme30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Bellman-Gleichungen180 Minuten

3 DiskussionsthemenInsgesamt 30 Minuten

Diskussion über das Problem der sequentiellen Entscheidung - Teil 110 Minuten
Diskussion zum Problem der sequentiellen Entscheidung - Teil 210 Minuten
Woche 3 Fragen und Feedback10 Minuten

Willkommen zu Woche 4! Diese Woche werden wir uns mit Algorithmen der dynamischen Programmierung zur Lösung von Markov-Entscheidungsprozessen (MDPs) beschäftigen. Themen sind u.a. Wertiteration und Policy-Iteration, nichtlineare Bellman-Gleichungen, Komplexität und Konvergenz sowie ein Vergleich der beiden Ansätze. Sie können im Diskussionsforum posten, wenn Sie Hilfe beim Quiz und der Aufgabe benötigen.

Das ist alles enthalten

6 Videos1 Lektüre1 Aufgabe2 Programmieraufgaben3 Diskussionsthemen

6 VideosInsgesamt 42 Minuten

4.1 Zeitlich begrenzte Werte8 Minuten
4.2 Wert Iteration7 Minuten
4.3 Wert Iteration Implementierung8 Minuten
4.4 Politik Iteration9 Minuten
4.5 Beispiel: Mini-Gridworld4 Minuten
4.6 Komplexität des Algorithmus7 Minuten

1 LektüreInsgesamt 10 Minuten

Woche 4 Unterrichtsmaterialien10 Minuten

1 AufgabeInsgesamt 30 Minuten

Markov-Entscheidungsprozesse30 Minuten

2 ProgrammieraufgabenInsgesamt 360 Minuten

Wert Iteration180 Minuten
Politik Iteration180 Minuten

3 DiskussionsthemenInsgesamt 35 Minuten

Diskussion über Markov Decision Processes15 Minuten
Diskussion über Policy Iteration vs. Value Iteration10 Minuten
Woche 4 Fragen und Feedback10 Minuten

Willkommen zu Woche 5! In dieser Woche werden wir die Themen partielle Beobachtbarkeit und POMDPs, Glaubenszustände, Darstellung als Glaubens-MDPs und Online-Planung in MDPs und POMDPs durchgehen. Sie werden Ihr Wissen auch anwenden, um den Glaubenszustand zu aktualisieren und eine Glaubensübergangsfunktion zur Berechnung von Zustandswerten zu verwenden. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgabe benötigen.

Das ist alles enthalten

5 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe3 Diskussionsthemen

5 VideosInsgesamt 35 Minuten

5.1 Partielle Beobachtbarkeit und POMDP5 Minuten
5.2 Glaubenszustände9 Minuten
5.3 Modell für den Übergang von Überzeugungen7 Minuten
5.4 Politiken und Wertfunktionen10 Minuten
5.5 Beispiel: Mini-Gridworld5 Minuten

2 LektürenInsgesamt 20 Minuten

Woche 5 Unterrichtsmaterialien10 Minuten
Zusammenfassung der Wochen 3, 4 und 510 Minuten

1 AufgabeInsgesamt 30 Minuten

POMDPs30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

POMDPs180 Minuten

3 DiskussionsthemenInsgesamt 35 Minuten

Diskussion über POMDPs - Teil 115 Minuten
Diskussion über POMDPs - Teil 210 Minuten
Woche 5 Fragen und Feedback10 Minuten

Willkommen zu Woche 6! In dieser Woche stellen wir Ihnen Monte-Carlo-Methoden vor und behandeln Themen im Zusammenhang mit der Schätzung von Zustandswerten mit Hilfe von Stichprobenmittelung und Monte-Carlo-Vorhersage, Zustandsaktionswerten und Epsilon-Greedy-Politiken sowie Wichtigkeitsstichproben für die Monte-Carlo-Kontrolle von Off-Policy und On-Policy. Sie werden lernen, Zustandswerte und Zustandsaktionswerte zu schätzen, Wichtigkeitsstichproben zu verwenden und eine Off-Policy-Monte-Carlo-Kontrolle für optimales Policy-Lernen zu implementieren. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgabe benötigen.

Das ist alles enthalten

6 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe2 Diskussionsthemen

6 VideosInsgesamt 42 Minuten

6.1 Monte Carlo Methoden5 Minuten
6.2 MC-Vorhersage beim ersten Besuch7 Minuten
6.3 Werte für staatliche Maßnahmen5 Minuten
6.4 Ɛ-Greedy On-Policy MC Kontrolle8 Minuten
6.5 Ein und Aus-Policy MC-Steuerung7 Minuten
6.6 Beispiel: Mini-Gridworld9 Minuten

2 LektürenInsgesamt 20 Minuten

Woche 6 Unterrichtsmaterialien10 Minuten
Lesen nach der Vorlesung10 Minuten

1 AufgabeInsgesamt 30 Minuten

Monte Carlo RL30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Monte Carlo180 Minuten

2 DiskussionsthemenInsgesamt 20 Minuten

Diskussion über Monte Carlo RL10 Minuten
Woche 6 Fragen und Feedback10 Minuten

Willkommen zu Woche 7! Diese Woche behandeln wir Themen im Zusammenhang mit temporalem Differenzlernen für die Vorhersage, TD-Batch-Methoden, SARSA für On-Policy-Kontrolle und Q-Learning für Off-Policy-Kontrolle. Sie werden lernen, TD-Prädiktion, TD-Batch- und Offline-Methoden, SARSA und Q-Learning zu implementieren und TD-Lernen für On-Policy und Off-Policy zu vergleichen. Anschließend werden Sie Ihr Wissen bei der Lösung einer Tic-Tac-Toe-Programmieraufgabe anwenden. Sie können im Diskussionsforum posten, wenn Sie Hilfe beim Quiz und der Aufgabe benötigen.

Das ist alles enthalten

5 Videos2 Lektüren1 Aufgabe3 Programmieraufgaben2 Diskussionsthemen

5 VideosInsgesamt 35 Minuten

7.1 Lernen aus zeitlichen Unterschieden7 Minuten
7.2 Vorhersage der zeitlichen Abweichung6 Minuten
7.3 Stapelaktualisierung5 Minuten
7.4 TD Lernen für Kontrolle8 Minuten
7.5 SARSA vs. Q-Learning9 Minuten

2 LektürenInsgesamt 20 Minuten

Woche 7 Unterrichtsmaterialien10 Minuten
Lektüre nach der Vorlesung10 Minuten

1 AufgabeInsgesamt 30 Minuten

Lernen aus zeitlichen Unterschieden30 Minuten

3 ProgrammieraufgabenInsgesamt 420 Minuten

Tic-Tac-Toe60 Minuten
Q-Learning180 Minuten
SARSA180 Minuten

2 DiskussionsthemenInsgesamt 20 Minuten

Diskussion über Zeitliche Differenz RL10 Minuten
Woche 7 Fragen und Feedback10 Minuten

Willkommen zu Woche 8! Dieses Modul befasst sich mit der n-schrittigen temporalen Differenzvorhersage, n-schrittigem SARSA (on-policy und off-policy), modellbasiertem RL mit Dyna-Q und Funktionsapproximation. Sie werden darauf vorbereitet sein, n-step TD-Lernen, n-step SARSA, Dyna-Q für modellbasiertes Lernen zu implementieren und Funktionsapproximation für Reinforcement Learning zu verwenden. Sie werden Ihr Wissen in der Programmierumgebung Frozen Lake anwenden. Sie können im Diskussionsforum posten, wenn Sie Hilfe beim Quiz und der Aufgabe benötigen.

Das ist alles enthalten

4 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe2 Diskussionsthemen1 Plug-in

4 VideosInsgesamt 39 Minuten

8.1 𝑛-Schritt Temporale Differenzvorhersage11 Minuten
8.2 𝑛-Schritt SARSA9 Minuten
8.3 Modellgestützte Methoden8 Minuten
8.4 Funktionsannäherung12 Minuten

3 LektürenInsgesamt 30 Minuten

Woche 8 Unterrichtsmaterialien10 Minuten
Lektüre nach der Vorlesung10 Minuten
Umfrage nach dem Kurs10 Minuten

1 AufgabeInsgesamt 30 Minuten

Verallgemeinerung der tabellarischen Methoden30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Gefrorener See180 Minuten

2 DiskussionsthemenInsgesamt 25 Minuten

Verstärkungslernen im täglichen Leben15 Minuten
Woche 8 Fragen und Feedback10 Minuten

1 Plug-inInsgesamt 15 Minuten

Umfrage nach dem Kurs15 Minuten

Dozent

Lehrkraftbewertungen

(6 Bewertungen)

Tony Dear

Columbia University

1 Kurs4.684 Lernende

von

Columbia University

Mehr von Algorithmen entdecken

Status: Kostenloser Testzeitraum
University of Alberta
Fundamentals of Reinforcement Learning
Kurs
Status: Kostenloser Testzeitraum
University of Colorado Boulder
Mastering Classic Reinforcement Learning Algorithms
Kurs
Status: Kostenloser Testzeitraum
University of Colorado Boulder
Foundations of Reinforcement Learning
Spezialisierung
Status: Kostenloser Testzeitraum
New York University
Reinforcement Learning in Finance
Kurs

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

5 stars
68 %
4 stars
20 %
3 stars
0 %
2 stars
8 %
1 star
4 %

Zeigt 3 von 24 an

Geprüft am 9. Juli 2023

Well-structured course that provides a great introduction to methodologies used in reinforcement learning. I am now eager to experiment more in my own time, to consolidate what I have learned.

Weitere Bewertungen anzeigen

Schalten Sie den Zugang zu mehr als 10.000 Kursen mit einem Abonnement frei
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich den über 4.700 globalen Unternehmen an, die Coursera for Business wählen

Häufig gestellte Fragen

Um auf Kursmaterialien und Aufgaben zugreifen zu können und ein Zertifikat zu erwerben, müssen Sie bei der Anmeldung zu einem Kurs die Option „Zertifikat“ erwerben. Berechtigte Lernende haben möglicherweise auch die Möglichkeit, mit einer kostenlosen Testphase zu beginnen. Bei einigen Kursen wird möglicherweise auch die Option „Vollständiger Kurs, kein Zertifikat“ angeboten. Damit haben Sie Zugriff auf die Kursmaterialien, können die erforderlichen Prüfungen einreichen und erhalten eine Abschlussnote, können jedoch kein Zertifikat erwerben oder erhalten.

Wenn Sie ein Zertifikat erwerben, erhalten Sie Zugang zu allen Kursmaterialien, einschließlich der benoteten Aufgaben. Nach Abschluss des Kurses wird Ihr elektronisches Zertifikat zu Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen.

Ja. Für ausgewählte Lernprogramme können Sie finanzielle Unterstützung oder ein Stipendium beantragen, wenn Sie die Einschreibegebühr nicht aufbringen können. Wenn für das von Ihnen gewählte Lernprogramm eine finanzielle Unterstützung oder ein Stipendium verfügbar ist, finden Sie auf der Beschreibungsseite einen Link zur Beantragung.

Weitere Fragen

Besuchen Sie die das Hilfe-Center für Kursteilnehmer.

Finanzielle Unterstützung verfügbar,