Función de valor - Value function

La función de valor de un problema de optimización da el valor alcanzado por la función objetivo en una solución, aunque solo depende de los parámetros del problema. En un sistema dinámico controlado , la función de valor representa la rentabilidad óptima del sistema durante el intervalo [t, t ₁ ] cuando se inicia en el tiempo t variable de estado x (t) = x . Si la función objetivo representa algún costo que debe minimizarse, la función de valor puede interpretarse como el costo para finalizar el programa óptimo y, por lo tanto, se denomina "función de costo para llevar". En un contexto económico, donde la función objetivo generalmente representa la utilidad , la función de valor es conceptualmente equivalente a la función de utilidad indirecta .

En un problema de control óptimo , la función de valor se define como el supremo de la función objetivo tomada sobre el conjunto de controles admisibles. Dado , un problema típico de control óptimo es ${\ Displaystyle (t_ {0}, x_ {0}) \ in [0, t_ {1}] \ times \ mathbb {R} ^ {d}}$

{\ Displaystyle {\ text {maximizar}} \ quad J (t_ {0}, x_ {0}; u) = \ int _ {t_ {0}} ^ {t_ {1}} I (t, x (t ), u (t)) \, \ mathrm {d} t + \ phi (x (t_ {1}))}

sujeto a

{\ Displaystyle {\ frac {\ mathrm {d} x (t)} {\ mathrm {d} t}} = f (t, x (t), u (t))}

con variable de estado inicial . La función objetivo debe maximizarse en todos los controles admisibles , donde se encuentra una función medible de Lebesgue desde un conjunto arbitrario prescrito . La función de valor se define entonces como ${\ Displaystyle x (t_ {0}) = x_ {0}}$ ${\ Displaystyle J (t_ {0}, x_ {0}; u)}$ ${\ Displaystyle u \ en U [t_ {0}, t_ {1}]}$ ${\ Displaystyle u}$ ${\ Displaystyle [t_ {0}, t_ {1}]}$ ${\ Displaystyle \ mathbb {R} ^ {m}}$

${\ Displaystyle V (t, x (t)) = \ max _ {u \ in U} \ int _ {t} ^ {t_ {1}} I (\ tau, x (\ tau), u (\ tau )) \, \ mathrm {d} \ tau + \ phi (x (t_ {1}))}$

con , donde es el valor de desecho . Si el par óptimo de trayectorias de control y estado es , entonces . La función que proporciona el control óptimo en función del estado actual se denomina política de control de retroalimentación o simplemente función de política. ${\ Displaystyle V (t_ {1}, x (t_ {1})) = \ phi (x (t_ {1}))}$ ${\ Displaystyle \ phi (x (t_ {1}))}$ ${\ displaystyle (x ^ {\ ast}, u ^ {\ ast})}$ ${\ Displaystyle V (t_ {0}, x_ {0}) = J (t_ {0}, x_ {0}; u ^ {\ ast})}$ ${\ Displaystyle h}$ ${\ Displaystyle u ^ {\ ast}}$ ${\ Displaystyle x}$

El principio de optimización de Bellman establece aproximadamente que cualquier política óptima en un momento , tomando el estado actual como una condición inicial "nueva", debe ser óptima para el problema restante. Si la función de valor es continuamente diferenciable , esto da lugar a una importante ecuación diferencial parcial conocida como ecuación de Hamilton-Jacobi-Bellman , ${\ Displaystyle t}$ ${\ Displaystyle t_ {0} \ leq t \ leq t_ {1}}$ ${\ Displaystyle x (t)}$

{\ Displaystyle - {\ frac {\ V parcial (t, x)} {\ parcial t}} = \ max _ {u} \ izquierda \ {I (t, x, u) + {\ frac {\ V parcial (t, x)} {\ parcial x}} f (t, x, u) \ derecha \}}

donde el maximando en el lado derecho también puede ser re-escrito como el de Hamilton , como ${\ Displaystyle H \ left (t, x, u, \ lambda \ right) = I (t, x, u) + \ lambda f (t, x, u)}$

{\ Displaystyle - {\ frac {\ parcial V (t, x)} {\ parcial t}} = \ max _ {u} H (t, x, u, \ lambda)}

con jugar el papel de las variables de costa . Dada esta definición, además tenemos , y después de diferenciar ambos lados de la ecuación HJB con respecto a , ${\ Displaystyle \ V parcial (t, x) / \ Parcial x = \ lambda (t)}$ ${\ Displaystyle \ mathrm {d} \ lambda (t) / \ mathrm {d} t = \ parcial ^ {2} V (t, x) / \ parcial x \ parcial t + \ parcial ^ {2} V (t, x) / \ parcial x ^ {2} \ cdot f (x)}$ ${\ Displaystyle x}$

{\ Displaystyle - {\ frac {\ parcial ^ {2} V (t, x)} {\ parcial t \ parcial x}} = {\ frac {\ parcial I} {\ parcial x}} + {\ frac { \ parcial ^ {2} V (t, x)} {\ parcial x ^ {2}}} f (x) + {\ frac {\ parcial V (t, x)} {\ parcial x}} {\ frac {\ parcial f (x)} {\ parcial x}}}

que luego de reemplazar los términos apropiados recupera la ecuación de costate

{\ Displaystyle - {\ dot {\ lambda}} (t) = {\ frac {\ I parcial} {\ parcial x}} + \ lambda (t) {\ frac {\ parcial f (x)} {\ parcial x}} = {\ frac {\ parcial H} {\ parcial x}}}

donde es la notación de Newton para la derivada con respecto al tiempo. ${\ Displaystyle {\ dot {\ lambda}} (t)}$

La función de valor es la solución de viscosidad única para la ecuación de Hamilton – Jacobi – Bellman. En un control óptimo aproximado de ciclo cerrado en línea , la función de valor es también una función de Lyapunov que establece la estabilidad asintótica global del sistema de ciclo cerrado.

Referencias

Otras lecturas

Caputo, Michael R. (2005). "Condiciones necesarias y suficientes para problemas isoperimétricos" . Fundamentos del análisis económico dinámico: teoría y aplicaciones del control óptimo . Nueva York: Cambridge University Press. págs. 174–210. ISBN 0-521-60368-4 .
Clarke, Frank H .; Loewen, Philip D. (1986). "La función de valor en el control óptimo: sensibilidad, controlabilidad y tiempo óptimo". Revista SIAM de Control y Optimización . 24 (2): 243–263. doi : 10.1137 / 0324014 .
LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). "El teorema de la envolvente en la optimización dinámica" (PDF) . Revista de Control y Dinámica Económica . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
Stengel, Robert F. (1994). "Condiciones para la Optimidad" . Control y estimación óptimos . Nueva York: Dover. págs. 201–222. ISBN 0-486-68200-5 .

Languages

In other projects

Función de valor - Value function

Referencias

Otras lecturas