Funzione valore - Value function

La funzione valore di un problema di ottimizzazione fornisce il valore raggiunto dalla funzione obiettivo ad una soluzione, mentre dipende solo dai parametri del problema. In un sistema dinamico controllato , la funzione valore rappresenta il payoff ottimale del sistema nell'intervallo [t, t ₁ ] quando avviato al tempo t variabile di stato x (t) = x . Se la funzione obiettivo rappresenta un costo che deve essere ridotto al minimo, la funzione valore può essere interpretata come il costo per completare il programma ottimale e viene quindi chiamata "funzione costo residuo". In un contesto economico, dove la funzione obiettivo rappresenta solitamente l' utilità , la funzione valore è concettualmente equivalente alla funzione di utilità indiretta .

In un problema di controllo ottimo , la funzione valore è definita come il supremo della funzione obiettivo assunto dall'insieme dei controlli ammissibili. Dato , un tipico problema di controllo ottimale è quello di ${\ displaystyle (t_ {0}, x_ {0}) \ in [0, t_ {1}] \ times \ mathbb {R} ^ {d}}$

{\ displaystyle {\ text {maxim}} \ quad J (t_ {0}, x_ {0}; u) = \ int _ {t_ {0}} ^ {t_ {1}} I (t, x (t ), u (t)) \, \ mathrm {d} t + \ phi (x (t_ {1}))}

soggetto a

{\ Displaystyle {\ frac {\ mathrm {d} x (t)} {\ mathrm {d} t}} = f (t, x (t), u (t))}

con variabile di stato iniziale . La funzione obiettivo deve essere massimizzata su tutti i controlli ammissibili , dove è una funzione misurabile Lebesgue da a qualche set arbitrario prescritto . La funzione valore viene quindi definita come ${\ displaystyle x (t_ {0}) = x_ {0}}$ ${\ displaystyle J (t_ {0}, x_ {0}; u)}$ ${\ displaystyle u \ in U [t_ {0}, t_ {1}]}$ ${\ displaystyle u}$ ${\ displaystyle [t_ {0}, t_ {1}]}$ ${\ displaystyle \ mathbb {R} ^ {m}}$

${\ Displaystyle V (t, x (t)) = \ max _ {u \ in U} \ int _ {t} ^ {t_ {1}} I (\ tau, x (\ tau), u (\ tau )) \, \ mathrm {d} \ tau + \ phi (x (t_ {1}))}$

con , dov'è il valore di scarto . Se la coppia ottimale di traiettorie di controllo e di stato è , allora . La funzione che fornisce il controllo ottimale in base allo stato corrente è chiamata politica di controllo del feedback o semplicemente funzione di politica. ${\ displaystyle V (t_ {1}, x (t_ {1})) = \ phi (x (t_ {1}))}$ ${\ displaystyle \ phi (x (t_ {1}))}$ ${\ displaystyle (x ^ {\ ast}, u ^ {\ ast})}$ ${\ displaystyle V (t_ {0}, x_ {0}) = J (t_ {0}, x_ {0}; u ^ {\ ast})}$ ${\ displaystyle h}$ ${\ displaystyle u ^ {\ ast}}$ ${\ displaystyle x}$

Il principio di ottimalità di Bellman afferma più o meno che qualsiasi politica ottimale al momento , prendendo lo stato attuale come "nuova" condizione iniziale, deve essere ottimale per il problema rimanente. Se la funzione valore risulta essere continuamente differenziabile , ciò dà origine a un'importante equazione differenziale parziale nota come equazione di Hamilton-Jacobi-Bellman , ${\ displaystyle t}$ ${\ displaystyle t_ {0} \ leq t \ leq t_ {1}}$ ${\ displaystyle x (t)}$

{\ displaystyle - {\ frac {\ partial V (t, x)} {\ partial t}} = \ max _ {u} \ left \ {I (t, x, u) + {\ frac {\ partial V (t, x)} {\ partial x}} f (t, x, u) \ right \}}

dove il massimando sul lato destro può anche essere ri-scritto come Hamiltoniana , come ${\ Displaystyle H \ left (t, x, u, \ lambda \ right) = I (t, x, u) + \ lambda f (t, x, u)}$

{\ displaystyle - {\ frac {\ partial V (t, x)} {\ partial t}} = \ max _ {u} H (t, x, u, \ lambda)}

con il ruolo delle variabili costate . Data questa definizione, abbiamo ulteriormente , e dopo aver differenziato entrambi i lati dell'equazione HJB rispetto a , ${\ displaystyle \ partial V (t, x) / \ partial x = \ lambda (t)}$ ${\ Displaystyle \ mathrm {d} \ lambda (t) / \ mathrm {d} t = \ partial ^ {2} V (t, x) / \ partial x \ partial t + \ partial ^ {2} V (t, x) / \ parziale x ^ {2} \ cdot f (x)}$ ${\ displaystyle x}$

{\ displaystyle - {\ frac {\ partial ^ {2} V (t, x)} {\ partial t \ partial x}} = {\ frac {\ partial I} {\ partial x}} + {\ frac { \ partial ^ {2} V (t, x)} {\ partial x ^ {2}}} f (x) + {\ frac {\ partial V (t, x)} {\ partial x}} {\ frac {\ partial f (x)} {\ partial x}}}

che dopo aver sostituito i termini appropriati recupera l' equazione costata

{\ displaystyle - {\ dot {\ lambda}} (t) = {\ frac {\ partial I} {\ partial x}} + \ lambda (t) {\ frac {\ partial f (x)} {\ partial x}} = {\ frac {\ partial H} {\ partial x}}}

dove è la notazione di Newton per la derivata rispetto al tempo. ${\ displaystyle {\ dot {\ lambda}} (t)}$

La funzione valore è l'unica soluzione di viscosità per l'equazione di Hamilton – Jacobi – Bellman. In un controllo ottimale approssimativo in linea a circuito chiuso, la funzione valore è anche una funzione di Lyapunov che stabilisce la stabilità asintotica globale del sistema a circuito chiuso.

Riferimenti

Ulteriore lettura

Caputo, Michael R. (2005). "Condizioni necessarie e sufficienti per problemi isoperimetrici" . Fondamenti dell'analisi economica dinamica: teoria e applicazioni del controllo ottimale . New York: Cambridge University Press. pagg. 174–210. ISBN 0-521-60368-4 .
Clarke, Frank H .; Loewen, Philip D. (1986). "La funzione valore nel controllo ottimale: sensibilità, controllabilità e ottimalità temporale". SIAM Journal on Control and Optimization . 24 (2): 243–263. doi : 10.1137 / 0324014 .
LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). "The Envelope Theorem in Dynamic Optimization" (PDF) . Journal of Economic Dynamics and Control . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
Stengel, Robert F. (1994). "Condizioni per l'ottimalità" . Controllo e stima ottimali . New York: Dover. pagg. 201–222. ISBN 0-486-68200-5 .

Languages

In other projects

Funzione valore - Value function

Riferimenti

Ulteriore lettura