Fonction de valeur - Value function

La fonction valeur d'un problème d'optimisation donne la valeur atteinte par la fonction objectif à une solution, tout en ne dépendant que des paramètres du problème. Dans un système dynamique contrôlé , la fonction valeur représente le gain optimal du système sur l'intervalle [t, t ₁ ] lorsqu'il est démarré à la variable d'état de temps t x (t) = x . Si la fonction objectif représente un certain coût qui doit être minimisé, la fonction de valeur peut être interprétée comme le coût pour terminer le programme optimal, et est donc appelée «fonction coût-à-aller». Dans un contexte économique, où la fonction objectif représente généralement l' utilité , la fonction de valeur est conceptuellement équivalente à la fonction d'utilité indirecte .

Dans un problème de contrôle optimal , la fonction valeur est définie comme le supremum de la fonction objectif repris sur l'ensemble des contrôles admissibles. Étant donné , un problème de contrôle optimal typique consiste à ${\ displaystyle (t_ {0}, x_ {0}) \ in [0, t_ {1}] \ times \ mathbb {R} ^ {d}}$

{\ displaystyle {\ text {maximiser}} \ quad J (t_ {0}, x_ {0}; u) = \ int _ {t_ {0}} ^ {t_ {1}} I (t, x (t ), u (t)) \, \ mathrm {d} t + \ phi (x (t_ {1}))}

sujet à

{\ displaystyle {\ frac {\ mathrm {d} x (t)} {\ mathrm {d} t}} = f (t, x (t), u (t))}

avec variable d'état initial . La fonction objective doit être maximisée sur tous les contrôles admissibles , où est une fonction mesurable de Lebesgue de à un ensemble arbitraire prescrit . La fonction de valeur est alors définie comme ${\ displaystyle x (t_ {0}) = x_ {0}}$ ${\ displaystyle J (t_ {0}, x_ {0}; u)}$ ${\ displaystyle u \ in U [t_ {0}, t_ {1}]}$ ${\ displaystyle u}$ ${\ displaystyle [t_ {0}, t_ {1}]}$ ${\ displaystyle \ mathbb {R} ^ {m}}$

${\ displaystyle V (t, x (t)) = \ max _ {u \ in U} \ int _ {t} ^ {t_ {1}} I (\ tau, x (\ tau), u (\ tau )) \, \ mathrm {d} \ tau + \ phi (x (t_ {1}))}$

avec , où est la valeur de rebut . Si la paire optimale de trajectoires de contrôle et d'état est , alors . La fonction qui donne le contrôle optimal en fonction de l'état actuel est appelée une politique de contrôle de rétroaction, ou simplement une fonction de politique. ${\ displaystyle V (t_ {1}, x (t_ {1})) = \ phi (x (t_ {1}))}$ ${\ displaystyle \ phi (x (t_ {1}))}$ ${\ displaystyle (x ^ {\ ast}, u ^ {\ ast})}$ ${\ displaystyle V (t_ {0}, x_ {0}) = J (t_ {0}, x_ {0}; u ^ {\ ast})}$ ${\ displaystyle h}$ ${\ displaystyle u ^ {\ ast}}$ ${\ displaystyle x}$

Le principe d'optimalité de Bellman stipule en gros que toute politique optimale à un moment donné , prenant l'état actuel comme «nouvelle» condition initiale, doit être optimale pour le problème restant. Si la fonction de valeur se trouve être continuellement différentiable , cela donne lieu à une importante équation différentielle partielle connue sous le nom d' équation de Hamilton – Jacobi – Bellman , ${\ displaystyle t}$ ${\ displaystyle t_ {0} \ leq t \ leq t_ {1}}$ ${\ displaystyle x (t)}$

{\ displaystyle - {\ frac {\ partial V (t, x)} {\ partial t}} = \ max _ {u} \ left \ {I (t, x, u) + {\ frac {\ partial V (t, x)} {\ partial x}} f (t, x, u) \ right \}}

où le maximante sur le côté droit peut également être réécrite comme hamiltonien , comme ${\ Displaystyle H \ left (t, x, u, \ lambda \ right) = I (t, x, u) + \ lambda f (t, x, u)}$

{\ displaystyle - {\ frac {\ partial V (t, x)} {\ partial t}} = \ max _ {u} H (t, x, u, \ lambda)}

avec en jouant le rôle des variables costate . Compte tenu de cette définition, nous avons en outre , et après avoir différencié les deux côtés de l'équation HJB par rapport à , ${\ Displaystyle \ partial V (t, x) / \ partial x = \ lambda (t)}$ ${\ displaystyle \ mathrm {d} \ lambda (t) / \ mathrm {d} t = \ partial ^ {2} V (t, x) / \ partial x \ partial t + \ partial ^ {2} V (t, x) / \ partial x ^ {2} \ cdot f (x)}$ ${\ displaystyle x}$

{\ displaystyle - {\ frac {\ partial ^ {2} V (t, x)} {\ partial t \ partial x}} = {\ frac {\ partial I} {\ partial x}} + {\ frac { \ partial ^ {2} V (t, x)} {\ partial x ^ {2}}} f (x) + {\ frac {\ partial V (t, x)} {\ partial x}} {\ frac {\ partial f (x)} {\ partial x}}}

qui, après avoir remplacé les termes appropriés, récupère l' équation costate

{\ displaystyle - {\ dot {\ lambda}} (t) = {\ frac {\ partial I} {\ partial x}} + \ lambda (t) {\ frac {\ partial f (x)} {\ partial x}} = {\ frac {\ partial H} {\ partial x}}}

où est la notation de Newton pour la dérivée par rapport au temps. ${\ displaystyle {\ dot {\ lambda}} (t)}$

La fonction de valeur est la solution de viscosité unique de l' équation de Hamilton – Jacobi – Bellman. Dans un contrôle optimal approximatif en boucle fermée en ligne , la fonction de valeur est également une fonction de Lyapunov qui établit la stabilité asymptotique globale du système en boucle fermée.

Références

Lectures complémentaires

Caputo, Michael R. (2005). "Conditions nécessaires et suffisantes pour les problèmes isopérimétriques" . Fondements de l'analyse économique dynamique: théorie du contrôle optimal et applications . New York: Cambridge University Press. 174-210. ISBN 0-521-60368-4 .
Clarke, Frank H .; Loewen, Philip D. (1986). "La fonction de valeur dans le contrôle optimal: sensibilité, contrôlabilité et optimalité de temps". Journal SIAM sur le contrôle et l'optimisation . 24 (2): 243-263. doi : 10.1137 / 0324014 .
LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). "Le théorème de l'enveloppe dans l'optimisation dynamique" (PDF) . Journal of Economic Dynamics and Control . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
Stengel, Robert F. (1994). "Conditions pour l'optimalité" . Contrôle et estimation optimaux . New York: Douvres. 201–222. ISBN 0-486-68200-5 .

Languages

In other projects

Fonction de valeur - Value function

Références

Lectures complémentaires