top of page
Das Bild zeigt einen Werbebanner von Amazon.

Q-Learning

Q-Learning ist ein modellfreier Reinforcement-Learning-Algorithmus, bei dem ein Agent durch Interaktion mit seiner Umgebung lernt, welche Aktionen in welchen Zuständen den höchsten langfristigen Nutzen bringen. Dazu aktualisiert er schrittweise sogenannte Q-Werte, die den erwarteten zukünftigen Belohnungen für Zustands-Aktions-Paare entsprechen, ohne ein explizites Modell der Umwelt zu benötigen. (vgl. Andrae 2023, S. 24 f.)


Beispiel: Ein Roboter lernt, sich durch ein Labyrinth zu bewegen: Zu Beginn probiert er zufällig verschiedene Wege aus. Für jeden Schritt erhält er eine kleine Strafe und für das Erreichen des Ausgangs eine hohe Belohnung. Mit der Zeit aktualisiert er seine Q-Werte und erkennt, welche Bewegungen in bestimmten Situationen langfristig zum Ziel führen, sodass er schließlich den kürzesten Weg durch das Labyrinth wählt.


Andrae, S. (2023): Ökonometrie und maschinelles Lernen. Basiswissen für Ökonomen. Wiesbaden: Springer Gabler

Kommentare


bottom of page