Q-Learning

Andreas Armster
20. Dez. 2025
1 Min. Lesezeit

Q-Learning ist ein modellfreier Reinforcement-Learning-Algorithmus, bei dem ein Agent durch Interaktion mit seiner Umgebung lernt, welche Aktionen in welchen Zuständen den höchsten langfristigen Nutzen bringen. Dazu aktualisiert er schrittweise sogenannte Q-Werte, die den erwarteten zukünftigen Belohnungen für Zustands-Aktions-Paare entsprechen, ohne ein explizites Modell der Umwelt zu benötigen. (vgl. Andrae 2023, S. 24 f.)

Beispiel: Ein Roboter lernt, sich durch ein Labyrinth zu bewegen: Zu Beginn probiert er zufällig verschiedene Wege aus. Für jeden Schritt erhält er eine kleine Strafe und für das Erreichen des Ausgangs eine hohe Belohnung. Mit der Zeit aktualisiert er seine Q-Werte und erkennt, welche Bewegungen in bestimmten Situationen langfristig zum Ziel führen, sodass er schließlich den kürzesten Weg durch das Labyrinth wählt.

Andrae, S. (2023): Ökonometrie und maschinelles Lernen. Basiswissen für Ökonomen. Wiesbaden: Springer Gabler

STUDYBREAK
BY ANDREAS ARMSTER

Q-Learning

Kommentare