Wertfunktion - Value function

Die Wertfunktion eines Optimierungsproblems gibt den Wert an, den die Zielfunktion bei einer Lösung erreicht, während sie nur von den Parametern des Problems abhängt. In einem gesteuerten dynamischen System stellt der Wert die optimale Funktion Auszahlung des Systems über das Intervall [t, t ₁ ] , wenn sie bei der Zeit gestartet t Zustandsvariable x (t) = x . Wenn die Zielfunktion einige Kosten darstellt, die minimiert werden sollen, kann die Wertfunktion als die Kosten zum Beenden des optimalen Programms interpretiert werden und wird daher als "Cost-to-Go-Funktion" bezeichnet. In einem wirtschaftlichen Kontext, in dem die Zielfunktion normalerweise einen Nutzen darstellt , entspricht die Wertfunktion konzeptionell der indirekten Nutzenfunktion .

In einem Problem der optimalen Steuerung wird die Wertfunktion als das Supremum der Zielfunktion definiert, die über den Satz zulässiger Steuerungen übernommen wird. Gegeben ist ein typisches optimales Steuerungsproblem ${\ displaystyle (t_ {0}, x_ {0}) \ in [0, t_ {1}] \ times \ mathbb {R} ^ {d}}$

{\ displaystyle {\ text {maxim}} \ quad J (t_ {0}, x_ {0}; u) = \ int _ {t_ {0}} ^ {t_ {1}} I (t, x (t) ), u (t)) \, \ mathrm {d} t + \ phi (x (t_ {1}))}

vorbehaltlich

{\ displaystyle {\ frac {\ mathrm {d} x (t)} {\ mathrm {d} t}} = f (t, x (t), u (t))}

mit Anfangszustandsvariable . Die Zielfunktion ist über alle zulässigen Kontrollen zu maximieren , wobei eine Lebesgue-Messfunktion von bis zu einer vorgeschriebenen willkürlichen Einstellung ist . Die Wertfunktion ist dann definiert als ${\ displaystyle x (t_ {0}) = x_ {0}}$ ${\ displaystyle J (t_ {0}, x_ {0}; u)}$ ${\ displaystyle u \ in U [t_ {0}, t_ {1}]}$ ${\ displaystyle u}$ ${\ displaystyle [t_ {0}, t_ {1}]}$ ${\ displaystyle \ mathbb {R} ^ {m}}$

${\ Anzeigestil V (t, x (t)) = \ max _ {u \ in U} \ int _ {t} ^ {t_ {1}} I (\ tau, x (\ tau), u (\ tau) )) \, \ mathrm {d} \ tau + \ phi (x (t_ {1}))}$

mit , wo ist der Schrottwert . Wenn das optimale Paar von Steuerungs- und Zustandstrajektorien ist , dann . Die Funktion , die basierend auf dem aktuellen Status die optimale Steuerung bietet, wird als Rückkopplungssteuerungsrichtlinie oder einfach als Richtlinienfunktion bezeichnet. ${\ displaystyle V (t_ {1}, x (t_ {1})) = \ phi (x (t_ {1}))}$ ${\ displaystyle \ phi (x (t_ {1}))}$ ${\ displaystyle (x ^ {\ ast}, u ^ {\ ast})}$ ${\ displaystyle V (t_ {0}, x_ {0}) = J (t_ {0}, x_ {0}; u ^ {\ ast})}$ ${\ displaystyle h}$ ${\ displaystyle u ^ {\ ast}}$ ${\ displaystyle x}$

Bellmans Optimalitätsprinzip besagt ungefähr, dass jede optimale Politik zum Zeitpunkt , bei der der aktuelle Zustand als "neue" Ausgangsbedingung angenommen wird, für das verbleibende Problem optimal sein muss. Wenn die Wertfunktion kontinuierlich differenzierbar ist , führt dies zu einer wichtigen partiellen Differentialgleichung, die als Hamilton-Jacobi-Bellman-Gleichung bekannt ist. ${\ displaystyle t}$ ${\ displaystyle t_ {0} \ leq t \ leq t_ {1}}$ ${\ displaystyle x (t)}$

{\ displaystyle - {\ frac {\ partielles V (t, x)} {\ partielles t}} = \ max _ {u} \ left \ {I (t, x, u) + {\ frac {\ partielles V. (t, x)} {\ partielles x}} f (t, x, u) \ rechts \}}

wo die maximand auf der rechten Seite kann auch als neu geschrieben werden Hamiltonian , wie ${\ displaystyle H \ left (t, x, u, \ lambda \ right) = I (t, x, u) + \ lambda f (t, x, u)}$

{\ displaystyle - {\ frac {\ partielles V (t, x)} {\ partielles t}} = \ max _ {u} H (t, x, u, \ lambda)}

mit der Rolle der Kostenvariablen . Angesichts dieser Definition haben wir ferner und nachdem wir beide Seiten der HJB-Gleichung in Bezug auf unterschieden haben , ${\ displaystyle \ partielles V (t, x) / \ partielles x = \ lambda (t)}$ ${\ displaystyle \ mathrm {d} \ lambda (t) / \ mathrm {d} t = \ partiell ^ {2} V (t, x) / \ partiell x \ partiell t + \ partiell ^ {2} V (t, x) / \ partielle x ^ {2} \ cdot f (x)}$ ${\ displaystyle x}$

{\ displaystyle - {\ frac {\ partiell ^ {2} V (t, x)} {\ partiell t \ partiell x}} = {\ frac {\ partiell I} {\ partiell x}} + {\ frac { \ partiell ^ {2} V (t, x)} {\ partiell x ^ {2}}} f (x) + {\ frac {\ partiell V (t, x)} {\ partiell x}} {\ frac {\ partielles f (x)} {\ partielles x}}}

Nach dem Ersetzen der entsprechenden Begriffe wird die Kostengleichung wiederhergestellt

{\ displaystyle - {\ dot {\ lambda}} (t) = {\ frac {\ partielles I} {\ partielles x}} + \ lambda (t) {\ frac {\ partielles f (x)} {\ partielles x}} = {\ frac {\ partielles H} {\ partielles x}}}

Wo ist die Newton-Notation für die Ableitung in Bezug auf die Zeit? ${\ displaystyle {\ dot {\ lambda}} (t)}$

Die Wertefunktion ist die einzigartige Viskositätslösung für die Hamilton-Jacobi-Bellman-Gleichung. In einer ungefähren optimalen Online -Regelung ist die Wertfunktion auch eine Lyapunov-Funktion , die die globale asymptotische Stabilität des Regelkreises herstellt.

Verweise

Weiterführende Literatur

Caputo, Michael R. (2005). "Notwendige und ausreichende Bedingungen für isoperimetrische Probleme" . Grundlagen der dynamischen Wirtschaftsanalyse: Optimale Steuerungstheorie und -anwendungen . New York: Cambridge University Press. S. 174–210. ISBN 0-521-60368-4 .
Clarke, Frank H.; Loewen, Philip D. (1986). "Die Wertefunktion bei optimaler Steuerung: Empfindlichkeit, Steuerbarkeit und Zeitoptimalität". SIAM Journal für Kontrolle und Optimierung . 24 (2): 243–263. doi : 10.1137 / 0324014 .
LaFrance, Jeffrey T.; Barney, L. Dwayne (1991). "Der Hüllkurvensatz in der dynamischen Optimierung" (PDF) . Zeitschrift für wirtschaftliche Dynamik und Kontrolle . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
Stengel, Robert F. (1994). "Bedingungen für die Optimalität" . Optimale Kontrolle und Schätzung . New York: Dover. S. 201–222. ISBN 0-486-68200-5 .

Languages

In other projects

Wertfunktion - Value function

Verweise

Weiterführende Literatur