Verdifunksjon - Value function
Den verdifunksjonen av et optimaliseringsproblem gir den verdi som oppnås for objektivfunksjonen ved en oppløsning, mens bare avhengig av parameterne i problemet. I et kontrollert dynamisk system representerer verdifunksjonen den optimale utbyttet av systemet over intervallet [t, t 1 ] når det startes ved tid- t- tilstandsvariabelen x (t) = x . Hvis den objektive funksjonen representerer noen kostnader som skal minimeres, kan verdifunksjonen tolkes som kostnaden for å fullføre det optimale programmet, og blir dermed referert til som "cost-to-go-funksjon." I en økonomisk sammenheng, hvor den objektive funksjonen vanligvis representerer nytte , er verdifunksjonen konseptuelt ekvivalent med den indirekte nyttefunksjonen .
I et problem med optimal kontroll er verdifunksjonen definert som overordnet for den objektive funksjonen som er overtatt settet med tillatte kontroller. Gitt , er et typisk optimalt kontrollproblem å
underlagt
med starttilstandsvariabel . Den objektive funksjonen skal maksimeres over alle tillatte kontroller , hvor er en Lebesgue-målbar funksjon fra noen foreskrevne vilkårlige innstillinger . Verdifunksjonen blir deretter definert som
med , hvor er skrapverdien . Hvis det optimale paret for kontroll og tilstandsbaner er , da . Funksjonen som gir optimal kontroll basert på gjeldende tilstand , kalles en tilbakemeldingskontrollpolicy, eller bare en policyfunksjon.
Bellmans prinsipp om optimalitet sier i grove trekk at enhver optimal politikk til enhver tid , som tar den nåværende tilstanden som "ny" starttilstand, må være optimal for det gjenværende problemet. Hvis verdifunksjonen tilfeldigvis er kontinuerlig differensierbar , gir dette en viktig partiell differensialligning kjent som Hamilton – Jacobi – Bellman-ligningen ,
hvor maximand på høyre side kan også bli re-skrevet som Hamilton , som
med å spille rollen som costate-variablene . Gitt denne definisjonen har vi videre , og etter å ha differensiert begge sider av HJB-ligningen med hensyn til ,
som etter å ha erstattet de aktuelle vilkårene gjenoppretter costate-ligningen
hvor er Newton notasjon for derivatet med hensyn til tid.
Verdifunksjonen er den unike viskositetsløsningen til Hamilton – Jacobi – Bellman-ligningen. I en online lukket sløyfe tilnærmet optimal kontroll er verdifunksjonen også en Lyapunov-funksjon som etablerer global asymptotisk stabilitet i lukket sløyfesystem.
Referanser
Videre lesning
- Caputo, Michael R. (2005). "Nødvendige og tilstrekkelige forhold for isoperimetriske problemer" . Grunnlaget for dynamisk økonomisk analyse: Optimal kontrollteori og applikasjoner . New York: Cambridge University Press. s. 174–210. ISBN 0-521-60368-4 .
- Clarke, Frank H .; Loewen, Philip D. (1986). "Verdifunksjonen i optimal kontroll: følsomhet, kontrollerbarhet og tidsoptimalitet". SIAM Journal on Control and Optimization . 24 (2): 243–263. doi : 10.1137 / 0324014 .
- LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). "The Envelope Theorem in Dynamic Optimization" (PDF) . Tidsskrift for økonomisk dynamikk og kontroll . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
- Stengel, Robert F. (1994). "Betingelser for optimalitet" . Optimal kontroll og estimering . New York: Dover. s. 201–222. ISBN 0-486-68200-5 .