Función de valor - Value function
La función de valor de un problema de optimización da el valor alcanzado por la función objetivo en una solución, aunque solo depende de los parámetros del problema. En un sistema dinámico controlado , la función de valor representa la rentabilidad óptima del sistema durante el intervalo [t, t 1 ] cuando se inicia en el tiempo t variable de estado x (t) = x . Si la función objetivo representa algún costo que debe minimizarse, la función de valor puede interpretarse como el costo para finalizar el programa óptimo y, por lo tanto, se denomina "función de costo para llevar". En un contexto económico, donde la función objetivo generalmente representa la utilidad , la función de valor es conceptualmente equivalente a la función de utilidad indirecta .
En un problema de control óptimo , la función de valor se define como el supremo de la función objetivo tomada sobre el conjunto de controles admisibles. Dado , un problema típico de control óptimo es
sujeto a
con variable de estado inicial . La función objetivo debe maximizarse en todos los controles admisibles , donde se encuentra una función medible de Lebesgue desde un conjunto arbitrario prescrito . La función de valor se define entonces como
con , donde es el valor de desecho . Si el par óptimo de trayectorias de control y estado es , entonces . La función que proporciona el control óptimo en función del estado actual se denomina política de control de retroalimentación o simplemente función de política.
El principio de optimización de Bellman establece aproximadamente que cualquier política óptima en un momento , tomando el estado actual como una condición inicial "nueva", debe ser óptima para el problema restante. Si la función de valor es continuamente diferenciable , esto da lugar a una importante ecuación diferencial parcial conocida como ecuación de Hamilton-Jacobi-Bellman ,
donde el maximando en el lado derecho también puede ser re-escrito como el de Hamilton , como
con jugar el papel de las variables de costa . Dada esta definición, además tenemos , y después de diferenciar ambos lados de la ecuación HJB con respecto a ,
que luego de reemplazar los términos apropiados recupera la ecuación de costate
donde es la notación de Newton para la derivada con respecto al tiempo.
La función de valor es la solución de viscosidad única para la ecuación de Hamilton – Jacobi – Bellman. En un control óptimo aproximado de ciclo cerrado en línea , la función de valor es también una función de Lyapunov que establece la estabilidad asintótica global del sistema de ciclo cerrado.
Referencias
Otras lecturas
- Caputo, Michael R. (2005). "Condiciones necesarias y suficientes para problemas isoperimétricos" . Fundamentos del análisis económico dinámico: teoría y aplicaciones del control óptimo . Nueva York: Cambridge University Press. págs. 174–210. ISBN 0-521-60368-4 .
- Clarke, Frank H .; Loewen, Philip D. (1986). "La función de valor en el control óptimo: sensibilidad, controlabilidad y tiempo óptimo". Revista SIAM de Control y Optimización . 24 (2): 243–263. doi : 10.1137 / 0324014 .
- LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). "El teorema de la envolvente en la optimización dinámica" (PDF) . Revista de Control y Dinámica Económica . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
- Stengel, Robert F. (1994). "Condiciones para la Optimidad" . Control y estimación óptimos . Nueva York: Dover. págs. 201–222. ISBN 0-486-68200-5 .