Verdifunksjon - Value function

Den verdifunksjonen av et optimaliseringsproblem gir den verdi som oppnås for objektivfunksjonen ved en oppløsning, mens bare avhengig av parameterne i problemet. I et kontrollert dynamisk system representerer verdifunksjonen den optimale utbyttet av systemet over intervallet [t, t ₁ ] når det startes ved tid- t- tilstandsvariabelen x (t) = x . Hvis den objektive funksjonen representerer noen kostnader som skal minimeres, kan verdifunksjonen tolkes som kostnaden for å fullføre det optimale programmet, og blir dermed referert til som "cost-to-go-funksjon." I en økonomisk sammenheng, hvor den objektive funksjonen vanligvis representerer nytte , er verdifunksjonen konseptuelt ekvivalent med den indirekte nyttefunksjonen .

I et problem med optimal kontroll er verdifunksjonen definert som overordnet for den objektive funksjonen som er overtatt settet med tillatte kontroller. Gitt , er et typisk optimalt kontrollproblem å ${\ displaystyle (t_ {0}, x_ {0}) \ i [0, t_ {1}] \ times \ mathbb {R} ^ {d}}$

{\ displaystyle {\ text {maximize}} \ quad J (t_ {0}, x_ {0}; u) = \ int _ {t_ {0}} ^ {t_ {1}} I (t, x (t ), u (t)) \, \ mathrm {d} t + \ phi (x (t_ {1}))}

underlagt

{\ displaystyle {\ frac {\ mathrm {d} x (t)} {\ mathrm {d} t}} = f (t, x (t), u (t))}

med starttilstandsvariabel . Den objektive funksjonen skal maksimeres over alle tillatte kontroller , hvor er en Lebesgue-målbar funksjon fra noen foreskrevne vilkårlige innstillinger . Verdifunksjonen blir deretter definert som ${\ displaystyle x (t_ {0}) = x_ {0}}$ ${\ displaystyle J (t_ {0}, x_ {0}; u)}$ ${\ displaystyle u \ i U [t_ {0}, t_ {1}]}$ ${\ displaystyle u}$ ${\ displaystyle [t_ {0}, t_ {1}]}$ ${\ displaystyle \ mathbb {R} ^ {m}}$

${\ displaystyle V (t, x (t)) = \ max _ {u \ in U} \ int _ {t} ^ {t_ {1}} I (\ tau, x (\ tau), u (\ tau )) \, \ mathrm {d} \ tau + \ phi (x (t_ {1}))}$

med , hvor er skrapverdien . Hvis det optimale paret for kontroll og tilstandsbaner er , da . Funksjonen som gir optimal kontroll basert på gjeldende tilstand , kalles en tilbakemeldingskontrollpolicy, eller bare en policyfunksjon. ${\ displaystyle V (t_ {1}, x (t_ {1})) = \ phi (x (t_ {1}))}$ ${\ displaystyle \ phi (x (t_ {1}))}$ ${\ displaystyle (x ^ {\ ast}, u ^ {\ ast})}$ ${\ displaystyle V (t_ {0}, x_ {0}) = J (t_ {0}, x_ {0}; u ^ {\ ast})}$ ${\ displaystyle h}$ ${\ displaystyle u ^ {\ ast}}$ ${\ displaystyle x}$

Bellmans prinsipp om optimalitet sier i grove trekk at enhver optimal politikk til enhver tid , som tar den nåværende tilstanden som "ny" starttilstand, må være optimal for det gjenværende problemet. Hvis verdifunksjonen tilfeldigvis er kontinuerlig differensierbar , gir dette en viktig partiell differensialligning kjent som Hamilton – Jacobi – Bellman-ligningen , ${\ displaystyle t}$ ${\ displaystyle t_ {0} \ leq t \ leq t_ {1}}$ ${\ displaystyle x (t)}$

{\ displaystyle - {\ frac {\ partial V (t, x)} {\ partial t}} = \ max _ {u} \ left \ {I (t, x, u) + {\ frac {\ partial V (t, x)} {\ delvis x}} f (t, x, u) \ høyre \}}

hvor maximand på høyre side kan også bli re-skrevet som Hamilton , som ${\ displaystyle H \ left (t, x, u, \ lambda \ right) = I (t, x, u) + \ lambda f (t, x, u)}$

{\ displaystyle - {\ frac {\ partial V (t, x)} {\ partial t}} = \ max _ {u} H (t, x, u, \ lambda)}

med å spille rollen som costate-variablene . Gitt denne definisjonen har vi videre , og etter å ha differensiert begge sider av HJB-ligningen med hensyn til , ${\ displaystyle \ partial V (t, x) / \ partial x = \ lambda (t)}$ ${\ displaystyle \ mathrm {d} \ lambda (t) / \ mathrm {d} t = \ partial ^ {2} V (t, x) / \ partial x \ partial t + \ partial ^ {2} V (t, x) / \ delvis x ^ {2} \ cdot f (x)}$ ${\ displaystyle x}$

{\ displaystyle - {\ frac {\ partial ^ {2} V (t, x)} {\ partial t \ partial x}} = {\ frac {\ partial I} {\ partial x}} + {\ frac { \ delvis ^ {2} V (t, x)} {\ delvis x ^ {2}}} f (x) + {\ frac {\ delvis V (t, x)} {\ delvis x}} {\ frac {\ partial f (x)} {\ partial x}}}

som etter å ha erstattet de aktuelle vilkårene gjenoppretter costate-ligningen

{\ displaystyle - {\ dot {\ lambda}} (t) = {\ frac {\ partial I} {\ partial x}} + \ lambda (t) {\ frac {\ partial f (x)} {\ partial x}} = {\ frac {\ partial H} {\ partial x}}}

hvor er Newton notasjon for derivatet med hensyn til tid. ${\ displaystyle {\ dot {\ lambda}} (t)}$

Verdifunksjonen er den unike viskositetsløsningen til Hamilton – Jacobi – Bellman-ligningen. I en online lukket sløyfe tilnærmet optimal kontroll er verdifunksjonen også en Lyapunov-funksjon som etablerer global asymptotisk stabilitet i lukket sløyfesystem.

Referanser

Videre lesning

Caputo, Michael R. (2005). "Nødvendige og tilstrekkelige forhold for isoperimetriske problemer" . Grunnlaget for dynamisk økonomisk analyse: Optimal kontrollteori og applikasjoner . New York: Cambridge University Press. s. 174–210. ISBN 0-521-60368-4 .
Clarke, Frank H .; Loewen, Philip D. (1986). "Verdifunksjonen i optimal kontroll: følsomhet, kontrollerbarhet og tidsoptimalitet". SIAM Journal on Control and Optimization . 24 (2): 243–263. doi : 10.1137 / 0324014 .
LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). "The Envelope Theorem in Dynamic Optimization" (PDF) . Tidsskrift for økonomisk dynamikk og kontroll . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
Stengel, Robert F. (1994). "Betingelser for optimalitet" . Optimal kontroll og estimering . New York: Dover. s. 201–222. ISBN 0-486-68200-5 .

Languages

In other projects

Verdifunksjon - Value function

Referanser

Videre lesning