Função de valor - Value function
A função de valor de um problema de otimização fornece o valor obtido pela função objetivo em uma solução, dependendo apenas dos parâmetros do problema. Em um sistema dinâmico controlado , a função de valor representa o payoff ótimo do sistema no intervalo [t, t 1 ] quando iniciado na variável de estado t tempo x (t) = x . Se a função objetivo representa algum custo que deve ser minimizado, a função de valor pode ser interpretada como o custo para concluir o programa ideal e, portanto, é referida como "função de custo para avançar". Em um contexto econômico, onde a função objetivo geralmente representa a utilidade , a função de valor é conceitualmente equivalente à função de utilidade indireta .
Em um problema de controle ótimo , a função de valor é definida como o supremo da função objetivo assumida sobre o conjunto de controles admissíveis. Dado , um problema típico de controle ótimo é
sujeito a
com variável de estado inicial . A função objetivo deve ser maximizada sobre todos os controles admissíveis , onde é uma função mensurável de Lebesgue de para algum conjunto arbitrário prescrito . A função de valor é então definida como
com , onde está o valor de sucata . Se o par ideal de controle e trajetórias de estado for , então . A função que fornece o controle ideal com base no estado atual é chamada de política de controle de feedback ou simplesmente função de política.
O princípio de otimização de Bellman afirma aproximadamente que qualquer política ótima no momento , tomando o estado atual como "nova" condição inicial, deve ser ótima para o problema remanescente. Se a função de valor passa a ser continuamente diferenciável , isso dá origem a uma importante equação diferencial parcial conhecida como equação de Hamilton-Jacobi-Bellman ,
onde o maximand no lado da mão direita também pode ser re-escrita como o hamiltoniano , como
em desempenhar o papel das variáveis de custo . Dada esta definição, temos ainda , e depois de diferenciar ambos os lados da equação HJB com respeito a ,
que, após substituir os termos apropriados, recupera a equação de custo
onde é a notação de Newton para a derivada em relação ao tempo.
A função de valor é a solução de viscosidade única para a equação de Hamilton – Jacobi – Bellman. Em um controle ótimo aproximado de malha fechada online , a função de valor também é uma função de Lyapunov que estabelece a estabilidade assintótica global do sistema de malha fechada.
Referências
Leitura adicional
- Caputo, Michael R. (2005). "Condições necessárias e suficientes para problemas isoperimétricos" . Fundamentos da Análise Econômica Dinâmica: Teoria e Aplicações de Controle Ótimo . Nova York: Cambridge University Press. pp. 174–210. ISBN 0-521-60368-4 .
- Clarke, Frank H .; Loewen, Philip D. (1986). "A função de valor no controle ideal: sensibilidade, controlabilidade e otimização do tempo". SIAM Journal on Control and Optimization . 24 (2): 243–263. doi : 10.1137 / 0324014 .
- LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). "The Envelope Theorem in Dynamic Optimization" (PDF) . Journal of Economic Dynamics and Control . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
- Stengel, Robert F. (1994). “Condições de otimização” . Controle e estimativa ideais . Nova York: Dover. pp. 201–222. ISBN 0-486-68200-5 .