Verdifunksjon - Value function

Den verdifunksjonen av et optimaliseringsproblem gir den verdi som oppnås for objektivfunksjonen ved en oppløsning, mens bare avhengig av parameterne i problemet. I et kontrollert dynamisk system representerer verdifunksjonen den optimale utbyttet av systemet over intervallet [t, t 1 ] når det startes ved tid- t- tilstandsvariabelen x (t) = x . Hvis den objektive funksjonen representerer noen kostnader som skal minimeres, kan verdifunksjonen tolkes som kostnaden for å fullføre det optimale programmet, og blir dermed referert til som "cost-to-go-funksjon." I en økonomisk sammenheng, hvor den objektive funksjonen vanligvis representerer nytte , er verdifunksjonen konseptuelt ekvivalent med den indirekte nyttefunksjonen .

I et problem med optimal kontroll er verdifunksjonen definert som overordnet for den objektive funksjonen som er overtatt settet med tillatte kontroller. Gitt , er et typisk optimalt kontrollproblem å

underlagt

med starttilstandsvariabel . Den objektive funksjonen skal maksimeres over alle tillatte kontroller , hvor er en Lebesgue-målbar funksjon fra noen foreskrevne vilkårlige innstillinger . Verdifunksjonen blir deretter definert som

med , hvor er skrapverdien . Hvis det optimale paret for kontroll og tilstandsbaner er , da . Funksjonen som gir optimal kontroll basert på gjeldende tilstand , kalles en tilbakemeldingskontrollpolicy, eller bare en policyfunksjon.

Bellmans prinsipp om optimalitet sier i grove trekk at enhver optimal politikk til enhver tid , som tar den nåværende tilstanden som "ny" starttilstand, må være optimal for det gjenværende problemet. Hvis verdifunksjonen tilfeldigvis er kontinuerlig differensierbar , gir dette en viktig partiell differensialligning kjent som Hamilton – Jacobi – Bellman-ligningen ,

hvor maximand på høyre side kan også bli re-skrevet som Hamilton , som

med å spille rollen som costate-variablene . Gitt denne definisjonen har vi videre , og etter å ha differensiert begge sider av HJB-ligningen med hensyn til ,

som etter å ha erstattet de aktuelle vilkårene gjenoppretter costate-ligningen

hvor er Newton notasjon for derivatet med hensyn til tid.

Verdifunksjonen er den unike viskositetsløsningen til Hamilton – Jacobi – Bellman-ligningen. I en online lukket sløyfe tilnærmet optimal kontroll er verdifunksjonen også en Lyapunov-funksjon som etablerer global asymptotisk stabilitet i lukket sløyfesystem.

Referanser

Videre lesning