Sie sind auf Seite 1von 2

Übungsblatt 14

Aufgabe 1 – Reinforcement Learning

Stellen Sie sich vor, Sie designen einen Roboter, der aus einem Labyrinth herausfinden soll. Sie
entscheiden sich dazu, ihm einen Reward von +1 für das Erreichen des Ausgangs zu geben und einen
Reward von 0 für alle anderen Zeitschritte. Die Problembeschreibung klingt episodisch (jeder
einzelne Labyrinthdurchlauf ist eine Episode), also entscheiden Sie sich dafür es als episodisches
Problem zu behandeln und den zu erwartenden Reward wie auf Folie 9-12 gezeigt zu verwenden.
Nach einiger Zeit bemerken Sie, dass der Agent keinerlei Fortschritte zu machen scheint. Was läuft
schief? Was haben Sie falsch gemacht und wie können Sie es besser machen?

Lösung:

Der kumulative Reward für den Weg durch das Labyrinth ist immer gleich groß, nämlich 1.

0+0+0+0+0+1=1
0+0+0+1+…+0+0=1
1+0+…+0+0+0+0+0=1

Egal wie viele Schritte der Agent benötigt, der Gesamtreward ist 1.

Es gibt mindestens zwei Möglichkeiten, das Problem zu beheben:

a) Andere Rewards: Erreichen des Ziels 1000, für jeden Schritt -1.
Da kurze Wege belohnt werden sollen, also quasi lange Wege mit vielen Schritten bestraft,
muss der Reward für einen Schritt negativ sein.
b) Wir wählen einen Diskontierungsfaktor kleiner 1, so dass die Belohnung für das Erreichen des
Ziels umso weniger wert ist, je mehr sie in der Zukunft liegt
γ = 0,9

Ergäbe also:
0 + 0,91 * 0 + 0,92 * 0 + 0,93 * 0 + 0,94 * 0 + 0,95 * 0 + 0,96 * 0 = 0,531441
0 + 0,91 * 0 + 0,92 * 0 + 0,93 * 1 = 0,729
0 + 0,91 * 0 + 0,92 * 0 + 0,9n * 1 = 0,000000…

Aufgabe 2 – Reinforcement Learning Gegeben sei folgendes Glücksspiel: Sie können einen 6-seitigen
fairen Würfel werfen. Ein Wurf kostet Sie 1€. Falls die Zahl 6 fällt, müssen sie weitere 5€ bezahlen
und das Spiel ist vorbei. Fällt eine andere Zahl, erhalten Sie die Augenzahl in Euro als Gewinn und Sie
können weitermachen. Sie dürfen jederzeit entscheiden, das Spiel zu beenden und erhalten dafür
Ihren Einsatz von 1€ zurück. (Sie erhalten den Euro nicht zurück, falls das Spiel durch eine gewürfelte
6 endet.) Zeichnen Sie den Transitionsgraphen (wie im Beispiel auf Folie 9-19) und geben Sie die
Übergangswahrscheinlichkeiten und Rewards in einer Tabelle an (wie im Beispiel auf Folie 9-20). Wie
würden Sie den zu erwartenden Reward berechnen und warum?
Aufgabe 3 – Reinforcement Learning – Policy Evaluation Gegeben sei das Recycling-Roboter-Beispiel
aus der Vorlesung: Nehmen Sie für die Variablen die folgenden konkreten Werte an: 𝛼 = 0,9 𝛽 = 0,8
𝑟𝑠𝑒𝑎𝑟𝑐ℎ = 5 𝑟𝑤𝑎𝑖𝑡 = 1 Außerdem sei 𝜋 die Zufallsstrategie, also: 𝜋(𝑠𝑒𝑎𝑟𝑐ℎ|ℎ𝑖𝑔ℎ) = 𝜋(𝑤𝑎𝑖𝑡|ℎ𝑖𝑔ℎ) = 1
2 𝜋(𝑠𝑒𝑎𝑟𝑐ℎ|𝑙𝑜𝑤) = 𝜋(𝑤𝑎𝑖𝑡|𝑙𝑜𝑤) = 𝜋(𝑟𝑒𝑐ℎ𝑎𝑟𝑔𝑒|𝑙𝑜𝑤) = 1 3

a) Dynamisches Programmieren: Führen Sie zwei Schritte der Iterative Policy Evaluation durch, also
berechnen Sie 𝑣1 und 𝑣2 für alle Zustände 𝑠. Als Initialisierung gilt 𝑣0 (𝑠) = 0 für alle Zustände 𝑠.

b) (Zur gemeinsamen Bearbeitung in der nächsten Übungsstunde) Bestimmen Sie ausgehend von 𝑣2
die verbesserte Policy 𝜋 ′ durch Policy Improvement. (Berechnen Sie also 𝑞𝜋 ′ (𝑠, 𝑎) für alle Zustände
𝑠 und alle Aktionen 𝑎 und bestimmen Sie 𝜋 ′ (𝑎|𝑠).

Das könnte Ihnen auch gefallen