Übungsblatt 14

Hochgeladen von

Amir Seyelan

0% fanden dieses Dokument nützlich (0 Abstimmungen)

10 Ansichten2 Seiten

Copyright

Verfügbare Formate

DOCX, PDF, TXT oder online auf Scribd lesen

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Dieses Dokument melden

Copyright:

Verfügbare Formate

Als DOCX, PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

0% fanden dieses Dokument nützlich (0 Abstimmungen)

10 Ansichten2 Seiten

Übungsblatt 14

Hochgeladen von

Amir Seyelan

Copyright:

Verfügbare Formate

Als DOCX, PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

Zu Seite

Sie sind auf Seite 1von 2

Im Dokument suchen

Übungsblatt 14

Aufgabe 1 – Reinforcement Learning

Stellen Sie sich vor, Sie designen einen Roboter, der aus einem Labyrinth herausfinden soll. Sie
entscheiden sich dazu, ihm einen Reward von +1 für das Erreichen des Ausgangs zu geben und einen
Reward von 0 für alle anderen Zeitschritte. Die Problembeschreibung klingt episodisch (jeder
einzelne Labyrinthdurchlauf ist eine Episode), also entscheiden Sie sich dafür es als episodisches
Problem zu behandeln und den zu erwartenden Reward wie auf Folie 9-12 gezeigt zu verwenden.
Nach einiger Zeit bemerken Sie, dass der Agent keinerlei Fortschritte zu machen scheint. Was läuft
schief? Was haben Sie falsch gemacht und wie können Sie es besser machen?

Lösung:

Der kumulative Reward für den Weg durch das Labyrinth ist immer gleich groß, nämlich 1.

0+0+0+0+0+1=1
0+0+0+1+…+0+0=1
1+0+…+0+0+0+0+0=1

Egal wie viele Schritte der Agent benötigt, der Gesamtreward ist 1.

Es gibt mindestens zwei Möglichkeiten, das Problem zu beheben:

a) Andere Rewards: Erreichen des Ziels 1000, für jeden Schritt -1.
Da kurze Wege belohnt werden sollen, also quasi lange Wege mit vielen Schritten bestraft,
muss der Reward für einen Schritt negativ sein.
b) Wir wählen einen Diskontierungsfaktor kleiner 1, so dass die Belohnung für das Erreichen des
Ziels umso weniger wert ist, je mehr sie in der Zukunft liegt
γ = 0,9

Ergäbe also:
0 + 0,91 * 0 + 0,92 * 0 + 0,93 * 0 + 0,94 * 0 + 0,95 * 0 + 0,96 * 0 = 0,531441
0 + 0,91 * 0 + 0,92 * 0 + 0,93 * 1 = 0,729
0 + 0,91 * 0 + 0,92 * 0 + 0,9n * 1 = 0,000000…

Aufgabe 2 – Reinforcement Learning Gegeben sei folgendes Glücksspiel: Sie können einen 6-seitigen
fairen Würfel werfen. Ein Wurf kostet Sie 1€. Falls die Zahl 6 fällt, müssen sie weitere 5€ bezahlen
und das Spiel ist vorbei. Fällt eine andere Zahl, erhalten Sie die Augenzahl in Euro als Gewinn und Sie
können weitermachen. Sie dürfen jederzeit entscheiden, das Spiel zu beenden und erhalten dafür
Ihren Einsatz von 1€ zurück. (Sie erhalten den Euro nicht zurück, falls das Spiel durch eine gewürfelte
6 endet.) Zeichnen Sie den Transitionsgraphen (wie im Beispiel auf Folie 9-19) und geben Sie die
Übergangswahrscheinlichkeiten und Rewards in einer Tabelle an (wie im Beispiel auf Folie 9-20). Wie
würden Sie den zu erwartenden Reward berechnen und warum?
Aufgabe 3 – Reinforcement Learning – Policy Evaluation Gegeben sei das Recycling-Roboter-Beispiel
aus der Vorlesung: Nehmen Sie für die Variablen die folgenden konkreten Werte an: 𝛼 = 0,9 𝛽 = 0,8
𝑟𝑠𝑒𝑎𝑟𝑐ℎ = 5 𝑟𝑤𝑎𝑖𝑡 = 1 Außerdem sei 𝜋 die Zufallsstrategie, also: 𝜋(𝑠𝑒𝑎𝑟𝑐ℎ|ℎ𝑖𝑔ℎ) = 𝜋(𝑤𝑎𝑖𝑡|ℎ𝑖𝑔ℎ) = 1
2 𝜋(𝑠𝑒𝑎𝑟𝑐ℎ|𝑙𝑜𝑤) = 𝜋(𝑤𝑎𝑖𝑡|𝑙𝑜𝑤) = 𝜋(𝑟𝑒𝑐ℎ𝑎𝑟𝑔𝑒|𝑙𝑜𝑤) = 1 3

a) Dynamisches Programmieren: Führen Sie zwei Schritte der Iterative Policy Evaluation durch, also
berechnen Sie 𝑣1 und 𝑣2 für alle Zustände 𝑠. Als Initialisierung gilt 𝑣0 (𝑠) = 0 für alle Zustände 𝑠.

b) (Zur gemeinsamen Bearbeitung in der nächsten Übungsstunde) Bestimmen Sie ausgehend von 𝑣2
die verbesserte Policy 𝜋 ′ durch Policy Improvement. (Berechnen Sie also 𝑞𝜋 ′ (𝑠, 𝑎) für alle Zustände
𝑠 und alle Aktionen 𝑎 und bestimmen Sie 𝜋 ′ (𝑎|𝑠).

Das könnte Ihnen auch gefallen

German Important Words
Dokument2 Seiten
German Important Words
Adarsh
Noch keine Bewertungen
Übungen Zur Aufnahmeprüfung - Mathematik
Dokument8 Seiten
Übungen Zur Aufnahmeprüfung - Mathematik
Calimero
Noch keine Bewertungen
Einstieg ins Machine Learning: Grundlagen, Prinzipien, erste Schritte
Von Everand
Einstieg ins Machine Learning: Grundlagen, Prinzipien, erste Schritte
Shahin Amiriparian
Noch keine Bewertungen
7152 Deutsche Lösungen
Dokument94 Seiten
7152 Deutsche Lösungen
Dertyp Derdichsieht
0% (2)
Das Leben A1 KV E2
Dokument2 Seiten
Das Leben A1 KV E2
Joana Monteiro
Noch keine Bewertungen
Grundrechnen Mit Dezimalbrüchen Station 6: Seite 1
Dokument10 Seiten
Grundrechnen Mit Dezimalbrüchen Station 6: Seite 1
Emilia Mariana Cepoiu
Noch keine Bewertungen
Uni Kassel PDF
Dokument6 Seiten
Uni Kassel PDF
giotsuong_buon_89
Noch keine Bewertungen
Msa 2008 Mathe 1
Dokument10 Seiten
Msa 2008 Mathe 1
peter_neo14
100% (1)
Exkurs Mikro II Oligopol - Heterogen
Dokument5 Seiten
Exkurs Mikro II Oligopol - Heterogen
m.schnoesel15
Noch keine Bewertungen
Quantitatives Problemloesen Loesungskommentare
Dokument5 Seiten
Quantitatives Problemloesen Loesungskommentare
Sarah
Noch keine Bewertungen
WiMa 02 Wirtschaftsmathematische Einleitung
Dokument21 Seiten
WiMa 02 Wirtschaftsmathematische Einleitung
Ashraf AM
Noch keine Bewertungen
Tutorium5 Kraftbegriff
Dokument2 Seiten
Tutorium5 Kraftbegriff
matthias19875482
Noch keine Bewertungen
Pruefungsbeispiel Mathematik Fuer Beruflich Qualifizierte Zugangstest
Dokument25 Seiten
Pruefungsbeispiel Mathematik Fuer Beruflich Qualifizierte Zugangstest
Google Account
Noch keine Bewertungen
Übung 3 (BWL)
Dokument5 Seiten
Übung 3 (BWL)
LiK3_a_RoCkStAr
Noch keine Bewertungen
Lösungen zum großen Python-Workbook: Ausführliche Musterlösungen
Von Everand
Lösungen zum großen Python-Workbook: Ausführliche Musterlösungen
Clemens Kaesler
Noch keine Bewertungen
QFM Übungsklausur SoSe2023
Dokument11 Seiten
QFM Übungsklausur SoSe2023
leon
Noch keine Bewertungen
Angabe - Matura Mai 2017
Dokument24 Seiten
Angabe - Matura Mai 2017
do.kreil
Noch keine Bewertungen
ZapMat MSAGyO10 Teil1 Teil2 LH 13 B
Dokument19 Seiten
ZapMat MSAGyO10 Teil1 Teil2 LH 13 B
benarr
Noch keine Bewertungen
Marketing - Klausur - SS 2006 PDF
Dokument4 Seiten
Marketing - Klausur - SS 2006 PDF
huihuiko
Noch keine Bewertungen
Tutorium 4 - Lösungen
Dokument8 Seiten
Tutorium 4 - Lösungen
Francesco Glira
Noch keine Bewertungen
Algorithmen Und Datenstrukturen Blatt - 06
Dokument3 Seiten
Algorithmen Und Datenstrukturen Blatt - 06
michele.nergadse
Noch keine Bewertungen
HH2007gk12 - Molkerei
Dokument4 Seiten
HH2007gk12 - Molkerei
Wison
Noch keine Bewertungen
HH2007gk12 - Molkerei
Dokument4 Seiten
HH2007gk12 - Molkerei
Wison
Noch keine Bewertungen
KL18 PT2 BBB Amt Ab P0 Au
Dokument20 Seiten
KL18 PT2 BBB Amt Ab P0 Au
John Smith
Noch keine Bewertungen
Biquad Null
Dokument2 Seiten
Biquad Null
Torsten Warncke
Noch keine Bewertungen
Mathe-Notizbuch Zweite Klasse High School
Dokument49 Seiten
Mathe-Notizbuch Zweite Klasse High School
ScribdTranslations
Noch keine Bewertungen
Dreisatz System
Dokument3 Seiten
Dreisatz System
wolkenwatcher
Noch keine Bewertungen
Endklausur B 2020-September (Ohne Markierungen)
Dokument4 Seiten
Endklausur B 2020-September (Ohne Markierungen)
joannakanatschnig
Noch keine Bewertungen
Grund Wissen 05
Dokument8 Seiten
Grund Wissen 05
Max Burris
Noch keine Bewertungen
2015 Mathematik Aufgaben KG
Dokument11 Seiten
2015 Mathematik Aufgaben KG
reza.nejati
Noch keine Bewertungen
Bernoulli-Experimente Und Binomialverteilung
Dokument10 Seiten
Bernoulli-Experimente Und Binomialverteilung
Calios Narus
Noch keine Bewertungen
Lichtblick E
Dokument390 Seiten
Lichtblick E
helix0r
Noch keine Bewertungen
BM Aufnahmeprüfung 2016 Mathematik Lösungen
Dokument4 Seiten
BM Aufnahmeprüfung 2016 Mathematik Lösungen
joxid
Noch keine Bewertungen
Ist Das So Richtig Gerechnet Wenn Ich Die Ebenen Auf Geogebra Eingebe, Schneiden Sie Sich, Ich Bin Mir Aber Nicht Sicher Wo Mei
Dokument1 Seite
Ist Das So Richtig Gerechnet Wenn Ich Die Ebenen Auf Geogebra Eingebe, Schneiden Sie Sich, Ich Bin Mir Aber Nicht Sicher Wo Mei
Un Wichtig
Noch keine Bewertungen
Angabe - Matura Mai 2018
Dokument24 Seiten
Angabe - Matura Mai 2018
do.kreil
Noch keine Bewertungen
015 Repraesentation II
Dokument40 Seiten
015 Repraesentation II
hiwi.vusal
Noch keine Bewertungen
Dokloe 2 G
Dokument28 Seiten
Dokloe 2 G
MrTabaco
Noch keine Bewertungen
Angabe - Matura September 2017
Dokument20 Seiten
Angabe - Matura September 2017
do.kreil
Noch keine Bewertungen
Mao 10
Dokument102 Seiten
Mao 10
Gaberiel Manalu
Noch keine Bewertungen
Dojos für Entwickler: 15 Aufgaben und Lösungen in .NET
Von Everand
Dojos für Entwickler: 15 Aufgaben und Lösungen in .NET
Stefan Lieser
Noch keine Bewertungen
Exercice Maths
Dokument2 Seiten
Exercice Maths
Max Neufville
Noch keine Bewertungen
Best Title Ever
Dokument24 Seiten
Best Title Ever
Revan The No-Life Demon
Noch keine Bewertungen
Uebungsaufgaben Zur Wahrscheinlichkeitsrechnung Binomialverteilung
Dokument4 Seiten
Uebungsaufgaben Zur Wahrscheinlichkeitsrechnung Binomialverteilung
marc_bressan
Noch keine Bewertungen
E Matnemet 08maj Ut
Dokument15 Seiten
E Matnemet 08maj Ut
sal kinga
0% (1)
KL18 PT2 BBB Amt Ab P0 Lo
Dokument16 Seiten
KL18 PT2 BBB Amt Ab P0 Lo
John Smith
Noch keine Bewertungen
Exponentialfunktionen Klasse 9
Dokument1 Seite
Exponentialfunktionen Klasse 9
Till Hardenbicker
Noch keine Bewertungen
Korrekturanleitung: Mathematik 2
Dokument10 Seiten
Korrekturanleitung: Mathematik 2
Elliott
Noch keine Bewertungen
3 Iteration
Dokument14 Seiten
3 Iteration
Yannick Broghammer
Noch keine Bewertungen
Die Ungewoehnliche Zahlenfolge B
Dokument4 Seiten
Die Ungewoehnliche Zahlenfolge B
Giordano Bruno
Noch keine Bewertungen
Kurvendiskussion Umgekehrt BeispielLösung
Dokument8 Seiten
Kurvendiskussion Umgekehrt BeispielLösung
Ella Čila
Noch keine Bewertungen
Num Erik
Dokument59 Seiten
Num Erik
Thomas Kochschalk
Noch keine Bewertungen
Reiser Sports Products Will Die Menge An Fußbällen Ermitteln
Dokument8 Seiten
Reiser Sports Products Will Die Menge An Fußbällen Ermitteln
ScribdTranslations
Noch keine Bewertungen
Mathe Test
Dokument5 Seiten
Mathe Test
Israa Yheaa
100% (1)
303771hs22dt - Mit Loesung
Dokument12 Seiten
303771hs22dt - Mit Loesung
swissstudent
Noch keine Bewertungen
Branch - and - Bound Algorithmus
Dokument8 Seiten
Branch - and - Bound Algorithmus
Piedmond
Noch keine Bewertungen
Lösungen zum großen Python3 Workbook: Unfangreiche Lösungen zu den Übungsaufgaben
Von Everand
Lösungen zum großen Python3 Workbook: Unfangreiche Lösungen zu den Übungsaufgaben
Clemens Kaesler
Noch keine Bewertungen
Lösungen 2011
Dokument24 Seiten
Lösungen 2011
adrianuhl
Noch keine Bewertungen
Controlling Klausur
Dokument5 Seiten
Controlling Klausur
janekwujesch
Noch keine Bewertungen
Greenfoot Kapitel3
Dokument20 Seiten
Greenfoot Kapitel3
Crossi Arlt
Noch keine Bewertungen
Technische Informatik
Dokument6 Seiten
Technische Informatik
Mithil Krishna Ramesh Kumar
Noch keine Bewertungen
Numerik Übungen 6
Dokument2 Seiten
Numerik Übungen 6
zuhkor
Noch keine Bewertungen
Kapitalmarkt-Theorie Übung 4
Dokument10 Seiten
Kapitalmarkt-Theorie Übung 4
Thomas Ohse
Noch keine Bewertungen
Wisap 6001 User Manual
Dokument44 Seiten
Wisap 6001 User Manual
Boubacar Kanté
Noch keine Bewertungen
CAT IsolationValves DeliveryProgram
Dokument20 Seiten
CAT IsolationValves DeliveryProgram
Parmasamy Subramani
Noch keine Bewertungen
Verpflichtungserklaerung Merkblatt
Dokument1 Seite
Verpflichtungserklaerung Merkblatt
Badr Eddine Chabakouni
Noch keine Bewertungen
Schmiermittel - 23979
Dokument6 Seiten
Schmiermittel - 23979
Thomas Piazza
Noch keine Bewertungen
Microsoft Word-Dokument (Neu)
Dokument104 Seiten
Microsoft Word-Dokument (Neu)
Klaus Peter
Noch keine Bewertungen
4679 Mes Wo Ist Mein Futter Spielanleitung 6s PDF
Dokument27 Seiten
4679 Mes Wo Ist Mein Futter Spielanleitung 6s PDF
jose300
Noch keine Bewertungen