Função de valor - Value function

A função de valor de um problema de otimização fornece o valor obtido pela função objetivo em uma solução, dependendo apenas dos parâmetros do problema. Em um sistema dinâmico controlado , a função de valor representa o payoff ótimo do sistema no intervalo [t, t 1 ] quando iniciado na variável de estado t tempo x (t) = x . Se a função objetivo representa algum custo que deve ser minimizado, a função de valor pode ser interpretada como o custo para concluir o programa ideal e, portanto, é referida como "função de custo para avançar". Em um contexto econômico, onde a função objetivo geralmente representa a utilidade , a função de valor é conceitualmente equivalente à função de utilidade indireta .

Em um problema de controle ótimo , a função de valor é definida como o supremo da função objetivo assumida sobre o conjunto de controles admissíveis. Dado , um problema típico de controle ótimo é

sujeito a

com variável de estado inicial . A função objetivo deve ser maximizada sobre todos os controles admissíveis , onde é uma função mensurável de Lebesgue de para algum conjunto arbitrário prescrito . A função de valor é então definida como

com , onde está o valor de sucata . Se o par ideal de controle e trajetórias de estado for , então . A função que fornece o controle ideal com base no estado atual é chamada de política de controle de feedback ou simplesmente função de política.

O princípio de otimização de Bellman afirma aproximadamente que qualquer política ótima no momento , tomando o estado atual como "nova" condição inicial, deve ser ótima para o problema remanescente. Se a função de valor passa a ser continuamente diferenciável , isso dá origem a uma importante equação diferencial parcial conhecida como equação de Hamilton-Jacobi-Bellman ,

onde o maximand no lado da mão direita também pode ser re-escrita como o hamiltoniano , como

em desempenhar o papel das variáveis ​​de custo . Dada esta definição, temos ainda , e depois de diferenciar ambos os lados da equação HJB com respeito a ,

que, após substituir os termos apropriados, recupera a equação de custo

onde é a notação de Newton para a derivada em relação ao tempo.

A função de valor é a solução de viscosidade única para a equação de Hamilton – Jacobi – Bellman. Em um controle ótimo aproximado de malha fechada online , a função de valor também é uma função de Lyapunov que estabelece a estabilidade assintótica global do sistema de malha fechada.

Referências

Leitura adicional