Função de valor - Value function

A função de valor de um problema de otimização fornece o valor obtido pela função objetivo em uma solução, dependendo apenas dos parâmetros do problema. Em um sistema dinâmico controlado , a função de valor representa o payoff ótimo do sistema no intervalo [t, t ₁ ] quando iniciado na variável de estado t tempo x (t) = x . Se a função objetivo representa algum custo que deve ser minimizado, a função de valor pode ser interpretada como o custo para concluir o programa ideal e, portanto, é referida como "função de custo para avançar". Em um contexto econômico, onde a função objetivo geralmente representa a utilidade , a função de valor é conceitualmente equivalente à função de utilidade indireta .

Em um problema de controle ótimo , a função de valor é definida como o supremo da função objetivo assumida sobre o conjunto de controles admissíveis. Dado , um problema típico de controle ótimo é ${\ displaystyle (t_ {0}, x_ {0}) \ in [0, t_ {1}] \ times \ mathbb {R} ^ {d}}$

{\ displaystyle {\ text {maximize}} \ quad J (t_ {0}, x_ {0}; u) = \ int _ {t_ {0}} ^ {t_ {1}} I (t, x (t ), u (t)) \, \ mathrm {d} t + \ phi (x (t_ {1}))}

sujeito a

{\ displaystyle {\ frac {\ mathrm {d} x (t)} {\ mathrm {d} t}} = f (t, x (t), u (t))}

com variável de estado inicial . A função objetivo deve ser maximizada sobre todos os controles admissíveis , onde é uma função mensurável de Lebesgue de para algum conjunto arbitrário prescrito . A função de valor é então definida como ${\ displaystyle x (t_ {0}) = x_ {0}}$ ${\ displaystyle J (t_ {0}, x_ {0}; u)}$ ${\ displaystyle u \ in U [t_ {0}, t_ {1}]}$ ${\ displaystyle u}$ ${\ displaystyle [t_ {0}, t_ {1}]}$ ${\ displaystyle \ mathbb {R} ^ {m}}$

${\ displaystyle V (t, x (t)) = \ max _ {u \ in U} \ int _ {t} ^ {t_ {1}} I (\ tau, x (\ tau), u (\ tau )) \, \ mathrm {d} \ tau + \ phi (x (t_ {1}))}$

com , onde está o valor de sucata . Se o par ideal de controle e trajetórias de estado for , então . A função que fornece o controle ideal com base no estado atual é chamada de política de controle de feedback ou simplesmente função de política. ${\ displaystyle V (t_ {1}, x (t_ {1})) = \ phi (x (t_ {1}))}$ ${\ displaystyle \ phi (x (t_ {1}))}$ ${\ displaystyle (x ^ {\ ast}, u ^ {\ ast})}$ ${\ displaystyle V (t_ {0}, x_ {0}) = J (t_ {0}, x_ {0}; u ^ {\ ast})}$ ${\ displaystyle h}$ ${\ displaystyle u ^ {\ ast}}$ ${\ displaystyle x}$

O princípio de otimização de Bellman afirma aproximadamente que qualquer política ótima no momento , tomando o estado atual como "nova" condição inicial, deve ser ótima para o problema remanescente. Se a função de valor passa a ser continuamente diferenciável , isso dá origem a uma importante equação diferencial parcial conhecida como equação de Hamilton-Jacobi-Bellman , ${\ displaystyle t}$ ${\ displaystyle t_ {0} \ leq t \ leq t_ {1}}$ ${\ displaystyle x (t)}$

{\ displaystyle - {\ frac {\ partial V (t, x)} {\ partial t}} = \ max _ {u} \ left \ {I (t, x, u) + {\ frac {\ partial V (t, x)} {\ parcial x}} f (t, x, u) \ direita \}}

onde o maximand no lado da mão direita também pode ser re-escrita como o hamiltoniano , como ${\ displaystyle H \ left (t, x, u, \ lambda \ right) = I (t, x, u) + \ lambda f (t, x, u)}$

{\ displaystyle - {\ frac {\ partial V (t, x)} {\ partial t}} = \ max _ {u} H (t, x, u, \ lambda)}

em desempenhar o papel das variáveis de custo . Dada esta definição, temos ainda , e depois de diferenciar ambos os lados da equação HJB com respeito a , ${\ displaystyle \ partial V (t, x) / \ partial x = \ lambda (t)}$ ${\ displaystyle \ mathrm {d} \ lambda (t) / \ mathrm {d} t = \ parcial ^ {2} V (t, x) / \ parcial x \ parcial t + \ parcial ^ {2} V (t, x) / \ parcial x ^ {2} \ cdot f (x)}$ ${\ displaystyle x}$

{\ displaystyle - {\ frac {\ partial ^ {2} V (t, x)} {\ partial t \ partial x}} = {\ frac {\ partial I} {\ partial x}} + {\ frac { \ parcial ^ {2} V (t, x)} {\ parcial x ^ {2}}} f (x) + {\ frac {\ parcial V (t, x)} {\ parcial x}} {\ frac {\ parcial f (x)} {\ parcial x}}}

que, após substituir os termos apropriados, recupera a equação de custo

{\ displaystyle - {\ dot {\ lambda}} (t) = {\ frac {\ parcial I} {\ parcial x}} + \ lambda (t) {\ frac {\ parcial f (x)} {\ parcial x}} = {\ frac {\ parcial H} {\ parcial x}}}

onde é a notação de Newton para a derivada em relação ao tempo. ${\ displaystyle {\ dot {\ lambda}} (t)}$

A função de valor é a solução de viscosidade única para a equação de Hamilton – Jacobi – Bellman. Em um controle ótimo aproximado de malha fechada online , a função de valor também é uma função de Lyapunov que estabelece a estabilidade assintótica global do sistema de malha fechada.

Referências

Leitura adicional

Caputo, Michael R. (2005). "Condições necessárias e suficientes para problemas isoperimétricos" . Fundamentos da Análise Econômica Dinâmica: Teoria e Aplicações de Controle Ótimo . Nova York: Cambridge University Press. pp. 174–210. ISBN 0-521-60368-4 .
Clarke, Frank H .; Loewen, Philip D. (1986). "A função de valor no controle ideal: sensibilidade, controlabilidade e otimização do tempo". SIAM Journal on Control and Optimization . 24 (2): 243–263. doi : 10.1137 / 0324014 .
LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). "The Envelope Theorem in Dynamic Optimization" (PDF) . Journal of Economic Dynamics and Control . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
Stengel, Robert F. (1994). “Condições de otimização” . Controle e estimativa ideais . Nova York: Dover. pp. 201–222. ISBN 0-486-68200-5 .

Languages

In other projects

Função de valor - Value function

Referências

Leitura adicional