Q-Learning
- Andreas Armster

- 20. Dez. 2025
- 1 Min. Lesezeit
Q-Learning ist ein modellfreier Reinforcement-Learning-Algorithmus, bei dem ein Agent durch Interaktion mit seiner Umgebung lernt, welche Aktionen in welchen Zuständen den höchsten langfristigen Nutzen bringen. Dazu aktualisiert er schrittweise sogenannte Q-Werte, die den erwarteten zukünftigen Belohnungen für Zustands-Aktions-Paare entsprechen, ohne ein explizites Modell der Umwelt zu benötigen. (vgl. Andrae 2023, S. 24 f.)
Beispiel: Ein Roboter lernt, sich durch ein Labyrinth zu bewegen: Zu Beginn probiert er zufällig verschiedene Wege aus. Für jeden Schritt erhält er eine kleine Strafe und für das Erreichen des Ausgangs eine hohe Belohnung. Mit der Zeit aktualisiert er seine Q-Werte und erkennt, welche Bewegungen in bestimmten Situationen langfristig zum Ziel führen, sodass er schließlich den kürzesten Weg durch das Labyrinth wählt.
Andrae, S. (2023): Ökonometrie und maschinelles Lernen. Basiswissen für Ökonomen. Wiesbaden: Springer Gabler



Kommentare