Optimale controle - Optimal control

Optimale regeltheorie is een tak van wiskundige optimalisatie die zich bezighoudt met het vinden van een regeling voor een dynamisch systeem gedurende een bepaalde periode, zodat een objectieve functie wordt geoptimaliseerd. Het heeft tal van toepassingen in wetenschap, techniek en operationeel onderzoek. Het dynamische systeem kan bijvoorbeeld een ruimtevaartuig zijn met bedieningselementen die overeenkomen met raketstuwraketten, en het doel kan zijn om de maan te bereiken met een minimum aan brandstofverbruik. Of het dynamische systeem kan de economie van een land zijn , met als doel de werkloosheid te minimaliseren ; de controles in dit geval zouden fiscaal en monetair beleid kunnen zijn . Een dynamisch systeem kan ook worden geïntroduceerd om operations research-problemen in te bedden in het kader van de optimale regeltheorie.

Optimale controle is een uitbreiding van de variatierekening en is een wiskundige optimalisatiemethode voor het afleiden van controlebeleid . De methode is grotendeels te danken aan het werk van Lev Pontryagin en Richard Bellman in de jaren vijftig, naar bijdragen aan variatierekening door Edward J. McShane . Optimale controle kan worden gezien als een regelstrategie in de regeltheorie .

Algemene methode:

Optimale controle houdt zich bezig met het probleem van het vinden van een regelwet voor een bepaald systeem zodat een bepaald optimaliteitscriterium wordt bereikt. Een controleprobleem omvat een kostenfunctionaliteit die een functie is van toestands- en controlevariabelen. Een optimale controle is een reeks differentiaalvergelijkingen die de paden beschrijven van de controlevariabelen die de kostenfunctie minimaliseren. De optimale controle kan worden afgeleid met behulp van het maximumprincipe van Pontryagin (een noodzakelijke voorwaarde ook bekend als het minimumprincipe van Pontryagin of eenvoudigweg het principe van Pontryagin), of door de Hamilton-Jacobi-Bellman-vergelijking op te lossen (een voldoende voorwaarde ).

We beginnen met een eenvoudig voorbeeld. Denk aan een auto die in een rechte lijn op een heuvelachtige weg rijdt. De vraag is, hoe moet de bestuurder het gaspedaal intrappen om de totale reistijd te minimaliseren ? In dit voorbeeld verwijst de term controlewet specifiek naar de manier waarop de bestuurder het gaspedaal indrukt en de versnellingen schakelt. Het systeem bestaat uit zowel de auto als de weg en het optimaliteitscriterium is het minimaliseren van de totale reistijd. Controleproblemen omvatten meestal bijkomende beperkingen . De hoeveelheid beschikbare brandstof kan bijvoorbeeld beperkt zijn, het gaspedaal kan niet door de vloer van de auto worden geduwd, snelheidslimieten, enz.

Een juiste kostenfunctie is een wiskundige uitdrukking die de reistijd weergeeft als een functie van de snelheid, geometrische overwegingen en beginvoorwaarden van het systeem. Constraints zijn vaak uitwisselbaar met de kostenfunctie.

Een ander gerelateerd probleem met optimale controle kan zijn om de manier te vinden om de auto te besturen om het brandstofverbruik te minimaliseren, aangezien hij een bepaald traject moet afleggen in een tijd die niet langer is dan een bepaald bedrag. Nog een ander gerelateerd controleprobleem kan zijn om de totale geldelijke kosten van het voltooien van de reis te minimaliseren, gegeven de veronderstelde geldprijzen voor tijd en brandstof.

Een meer abstract kader gaat als volgt. Minimaliseer de continu-tijd kosten functionele

J[{\textbf {x}}(\cdot),{\textbf {u}}(\cdot),t_{0},t_{f}]:=E\,[\,{\textbf {x}}(t_{0}),t_{0},{\textbf {x}}(t_{f}),t_{f}\,]+\int \limits _{t_{0}}^ {t_{f}}F\,[\,{\textbf {x}}(t),{\textbf {u}}(t),t\,]\,\operatornaam {d} t

onderworpen aan de eerste-orde dynamische beperkingen (de toestandsvergelijking )

{\dot {\textbf {x}}}(t)={\textbf {f}}\,[\,{\textbf {x}}(t),{\textbf {u}}(t ),t\,],

de algebraïsche padbeperkingen

{\textbf {h}}\,[\,{\textbf {x}}(t),{\textbf {u}}(t),t\,]\leq {\textbf {0}} ,

en de eindpuntvoorwaarden

{\textbf {e}}\,[\,{\textbf {x}}(t_{0}),t_{0},{\textbf {x}}(t_{f}),t_{ f}\,]=0

waar is de staat , is de controle , is de onafhankelijke variabele (in het algemeen tijd), is de begintijd en is de eindtijd. De termen en worden respectievelijk de eindpuntkosten en de bedrijfskosten genoemd. In de calculus van variaties, en worden respectievelijk de Mayer-term en de Lagrangian genoemd. Verder wordt opgemerkt dat de padbeperkingen in het algemeen ongelijkheidsbeperkingen zijn en dus mogelijk niet actief zijn (dwz gelijk aan nul) bij de optimale oplossing. Er wordt ook opgemerkt dat het optimale controleprobleem zoals hierboven vermeld meerdere oplossingen kan hebben (dwz de oplossing hoeft niet uniek te zijn). Het is dus meestal het geval dat elke oplossing voor het optimale controleprobleem lokaal minimaliseert . ${\textbf {x}}(t)$ ${\textbf {u}}(t)$ $t$ $t_{0}$ $t_{f}$ $E$ $F$ $E$ $F$ $[{\textbf {x}}^{*}(t),{\textbf {u}}^{*}(t),t_{0}^{*},t_{f}^{* }]$

Lineaire kwadratische controle

Een speciaal geval van het algemene niet-lineaire optimale regelprobleem dat in de vorige paragraaf is gegeven, is het lineaire kwadratische (LQ) optimale regelprobleem . Het LQ-probleem wordt als volgt weergegeven. Minimaliseer de kwadratische continu-tijd kostenfunctionaliteit

J={\tfrac {1}{2}}\mathbf {x} ^{\mathsf {T}}(t_{f})\mathbf {S} _{f}\mathbf {x} (t_ {f})+{\tfrac {1}{2}}\int _{t_{0}}\limits ^{t_{f}}[\,\mathbf {x} ^{\mathsf {T}}( t)\mathbf {Q} (t)\mathbf {x} (t)+\mathbf {u} ^{\mathsf {T}}(t)\mathbf {R} (t)\mathbf {u} (t )\,]\,\operatornaam {d} t

Onderworpen aan de lineaire eerste-orde dynamische beperkingen

{\dot {\mathbf {x} }}(t)=\mathbf {A} (t) \mathbf {x} (t) +\mathbf {B} (t) \mathbf {u} (t ),

en de beginvoorwaarde

\mathbf {x} (t_{0})=\mathbf {x} _{0}

Een specifieke vorm van het LQ-probleem dat zich in veel problemen met het besturingssysteem voordoet, is dat van de lineaire kwadratische regelaar (LQR) waarbij alle matrices (dwz , , , en ) constant zijn , de begintijd willekeurig op nul wordt gezet, en de eindtijd wordt in de limiet genomen (deze laatste veronderstelling is wat bekend staat als oneindige horizon ). Het LQR-probleem wordt als volgt weergegeven. Minimaliseer de oneindige horizon kwadratische continu-tijd kostenfunctioneel ${\ Displaystyle \ mathbf {A} }$ ${\ Displaystyle \ mathbf {B} }$ ${\ Displaystyle \ mathbf {Q} }$ ${\ Displaystyle \ mathbf {R} }$ $t_{f}\rightarrow \infty$

J={\tfrac {1}{2}}\int \limits _{0}^{\infty }[\,\mathbf {x} ^{\mathsf {T}}(t)\mathbf { Q} \mathbf {x} (t)+\mathbf {u} ^{\mathsf {T}}(t)\mathbf {R} \mathbf {u} (t)\,]\,\operatornaam {d} t

Onderworpen aan de lineaire tijdinvariante eerste-orde dynamische beperkingen

{\dot {\mathbf {x} }}(t)=\mathbf {A} \mathbf {x} (t)+\mathbf {B} \mathbf {u} (t),

en de beginvoorwaarde

\mathbf {x} (t_{0})=\mathbf {x} _{0}

In het geval van de eindige horizon zijn de matrices daarin beperkt en zijn ze respectievelijk positief halfbepaald en positief bepaald. In het geval van oneindige horizon zijn de matrices en niet alleen respectievelijk positief-semidefiniet en positief-definiet, maar zijn ze ook constant . Deze aanvullende beperkingen op en in het geval van oneindige horizon worden afgedwongen om ervoor te zorgen dat de functionele kosten positief blijven. Om verder te waarborgen dat de kostenfunctie wordt begrensd , de aanvullende beperking opgelegd dat het paar is regelbaar . Merk op dat de LQ- of LQR-kostenfunctionaliteit fysiek kan worden beschouwd als een poging om de controle-energie te minimaliseren (gemeten als een kwadratische vorm). ${\ Displaystyle \ mathbf {Q} }$ ${\ Displaystyle \ mathbf {R} }$ ${\ Displaystyle \ mathbf {Q} }$ ${\ Displaystyle \ mathbf {R} }$ ${\ Displaystyle \ mathbf {Q} }$ ${\ Displaystyle \ mathbf {R} }$ $(\mathbf {A}, \mathbf {B})$

Het oneindige-horizonprobleem (dwz LQR) lijkt misschien overdreven beperkend en in wezen nutteloos omdat het ervan uitgaat dat de operator het systeem naar de nultoestand stuurt en dus de uitvoer van het systeem naar nul stuurt. Dit klopt inderdaad. Het probleem van het sturen van de uitvoer naar een gewenst niveau dat niet nul is, kan echter worden opgelost nadat de uitvoer nul is. In feite kan worden bewezen dat dit secundaire LQR-probleem op een zeer eenvoudige manier kan worden opgelost. In de klassieke theorie van optimale controle is aangetoond dat de optimale controle van de LQ (of LQR) de feedbackvorm heeft:

{\ Displaystyle \ mathbf {u} (t) = - \ mathbf {K} (t) \ mathbf {x} (t)}

waar is een goed gedimensioneerde matrix, gegeven als ${\ Displaystyle \ mathbf {K} (t)}$

\mathbf {K} (t)=\mathbf {R} ^{-1}\mathbf {B} ^{\mathsf {T}}\mathbf {S} (t),

en is de oplossing van de differentiële Riccati-vergelijking . De differentiële Riccati-vergelijking wordt gegeven als ${\ Displaystyle \ mathbf {S} (t)}$

{\dot {\mathbf {S} }}(t)=-\mathbf {S} (t)\mathbf {A} -\mathbf {A} ^{\mathsf {T}}\mathbf {S } (t)+\mathbf {S} (t)\mathbf {B} \mathbf {R} ^{-1}\mathbf {B} ^{\mathsf {T}}\mathbf {S} (t)- \mathbf {Q}

Voor het LQ-probleem met de eindige horizon wordt de Riccati-vergelijking achterwaarts in de tijd geïntegreerd met behulp van de terminale randvoorwaarde

\mathbf {S} (t_{f})=\mathbf {S} _{f}

Voor het LQR-probleem met oneindige horizon wordt de differentiële Riccati-vergelijking vervangen door de algebraïsche Riccati-vergelijking (ARE) gegeven als

\mathbf {0} =-\mathbf {S} \mathbf {A} -\mathbf {A} ^{\mathsf {T}}\mathbf {S} +\mathbf {S} \mathbf {B} \mathbf {R} ^{-1}\mathbf {B} ^{\mathsf {T}}\mathbf {S} -\mathbf {Q}

Begrijpend dat de ARE voortkomt uit oneindige horizon probleem, de matrices , , , en zijn allemaal constant . Opgemerkt wordt dat er in het algemeen meerdere oplossingen zijn voor de algebraïsche Riccati-vergelijking en dat de positieve definitieve (of positieve semi-definitieve) oplossing degene is die wordt gebruikt om de feedbackversterking te berekenen. Het LQ (LQR)-probleem werd elegant opgelost door Rudolf Kálmán . ${\ Displaystyle \ mathbf {A} }$ ${\ Displaystyle \ mathbf {B} }$ ${\ Displaystyle \ mathbf {Q} }$ ${\ Displaystyle \ mathbf {R} }$

Numerieke methoden voor optimale controle

Optimale regelproblemen zijn over het algemeen niet-lineair en hebben daarom over het algemeen geen analytische oplossingen (zoals het lineair-kwadratische optimale regelprobleem). Dientengevolge is het noodzakelijk om numerieke methoden te gebruiken om optimale regelproblemen op te lossen. In de beginjaren van optimale controle ( ca. 1950 tot 1980) was de voorkeursbenadering voor het oplossen van optimale controleproblemen die van indirecte methoden . In een indirecte methode wordt de variatieberekening gebruikt om de voorwaarden van de eerste orde optimaliteit te verkrijgen. Deze voorwaarden resulteren in een tweepunts (of, in het geval van een complex probleem, een meerpunts) randwaardenprobleem . Dit randwaardeprobleem heeft eigenlijk een speciale structuur omdat het ontstaat door de afgeleide van een Hamiltoniaan te nemen . Het resulterende dynamische systeem is dus een Hamiltoniaans systeem van de vorm

{\begin{array}{lcl}{\dot {\textbf {x}}}&=&\partial H/\partial {\boldsymbol {\lambda }}\\{\dot {\boldsymbol {\ lambda }}}&=&-\partial H/\partial {\textbf {x}}\end{array}}

waar

H=F+{\boldsymbol {\lambda }}^{\mathsf {T}}{\textbf {f}}-{\boldsymbol {\mu }}^{\mathsf {T}}{\textbf { H}}

is de augmented Hamiltoniaan en in een indirecte methode wordt het randwaardeprobleem opgelost (met behulp van de juiste rand- of transversaliteitsvoorwaarden ). Het mooie van het gebruik van een indirecte methode is dat de toestand en adjunct (dwz ) worden opgelost en dat de resulterende oplossing gemakkelijk kan worden geverifieerd als een extremaal traject. Het nadeel van indirecte methoden is dat het randwaardeprobleem vaak uiterst moeilijk op te lossen is (vooral voor problemen met grote tijdsintervallen of problemen met interne puntbeperkingen). Een bekend softwareprogramma dat indirecte methoden implementeert, is BNDSCO. ${\boldsymbol {\lambda }}$

De benadering die sinds de jaren tachtig bekendheid heeft gekregen in numerieke optimale controle, is die van zogenaamde directe methoden . Bij een directe methode worden de toestand of de regeling, of beide, benaderd met behulp van een geschikte functiebenadering (bijv. polynoombenadering of stuksgewijs constante parametrering). Tegelijkertijd wordt de kostenfunctie benaderd als een kostenfunctie . Vervolgens worden de coëfficiënten van de functiebenaderingen behandeld als optimalisatievariabelen en wordt het probleem "getranscribeerd" naar een niet-lineair optimalisatieprobleem van de vorm:

Minimaliseren

F(\mathbf {z} )\,

onderworpen aan de algebraïsche beperkingen

{\begin{array}{lcl}\mathbf {g} (\mathbf {z} )&=&\mathbf {0} \\\mathbf {h} (\mathbf {z} )&\leq & \mathbf {0} \end{array}}

Afhankelijk van het type directe methode dat wordt gebruikt, kan de omvang van het niet-lineaire optimalisatieprobleem vrij klein zijn (bijvoorbeeld bij een directe opname- of quasilinearisatiemethode), matig (bijvoorbeeld pseudospectrale optimale controle ) of behoorlijk groot zijn (bijvoorbeeld een directe collocatie methode ). In het laatste geval (dwz een collocatiemethode), kan het niet-lineaire optimalisatieprobleem letterlijk duizenden tot tienduizenden variabelen en beperkingen zijn. Gezien de omvang van veel NLP's die voortkomen uit een directe methode, kan het enigszins contra-intuïtief lijken dat het oplossen van het niet-lineaire optimalisatieprobleem gemakkelijker is dan het oplossen van het randwaardeprobleem. Het is echter zo dat de NLP makkelijker op te lossen is dan het randwaardeprobleem. De reden voor het relatieve gemak van berekening, met name van een directe collocatiemethode, is dat de NLP schaars is en dat er veel bekende softwareprogramma's bestaan (bijv. SNOPT ) om grote schaarse NLP's op te lossen. Als gevolg hiervan is het scala aan problemen dat via directe methoden kan worden opgelost (met name directe collocatiemethoden die tegenwoordig erg populair zijn) aanzienlijk groter dan het scala aan problemen dat via indirecte methoden kan worden opgelost. In feite zijn directe methoden tegenwoordig zo populair geworden dat veel mensen uitgebreide softwareprogramma's hebben geschreven die deze methoden gebruiken. Veel van dergelijke programma's omvatten met name DIRCOL , SOCS, OTIS, GESOP/ ASTOS , DITAN. en PyGMO/PyKEP. Door de komst van de MATLAB- programmeertaal is de afgelopen jaren optimale besturingssoftware in MATLAB gebruikelijker geworden. Voorbeelden van academisch ontwikkelde MATLAB software tools implementeren directe methoden omvatten RELLEN , DIDO , DIRECT , FALCON.m en GPOPS, terwijl een voorbeeld van een industrie ontwikkeld MATLAB tool is propt . Deze softwaretools hebben de mogelijkheid voor mensen aanzienlijk vergroot om complexe optimale besturingsproblemen te onderzoeken, zowel voor academisch onderzoek als voor industriële problemen. Ten slotte wordt opgemerkt dat MATLAB-optimalisatieomgevingen voor algemene doeleinden zoals TOMLAB het coderen van complexe optimale besturingsproblemen aanzienlijk eenvoudiger hebben gemaakt dan voorheen mogelijk was in talen zoals C en FORTRAN .

Discrete tijd optimale controle

De voorbeelden tot nu toe hebben continue tijdsystemen en besturingsoplossingen getoond . Aangezien optimale regeloplossingen nu vaak digitaal worden geïmplementeerd , houdt de hedendaagse regeltheorie zich nu vooral bezig met discrete tijdsystemen en -oplossingen. De theorie van consistente benaderingen biedt voorwaarden waaronder oplossingen voor een reeks steeds nauwkeuriger gediscretiseerde optimale regelproblemen convergeren naar de oplossing van het oorspronkelijke, continu-tijdprobleem. Niet alle discretisatiemethoden hebben deze eigenschap, zelfs schijnbaar voor de hand liggende. Het gebruik van een routine met variabele stapgrootte om de dynamische vergelijkingen van het probleem te integreren, kan bijvoorbeeld een gradiënt genereren die niet naar nul convergeert (of niet in de goede richting wijst) als de oplossing wordt benaderd. De directe methode RIOTS is gebaseerd op de Theory of Consistent Approximation.

Voorbeelden

Een veel voorkomende oplossingsstrategie bij veel optimale besturingsproblemen is het oplossen van de costate (soms de schaduwprijs genoemd ) . De costate vat in één getal de marginale waarde samen van het uitbreiden of inkrimpen van de toestandsvariabele de volgende beurt. De marginale waarde is niet alleen de winst die de volgende beurt oplevert, maar is ook gekoppeld aan de duur van het programma. Het is mooi als het analytisch kan worden opgelost, maar meestal is het beste wat je kunt doen het voldoende goed te beschrijven zodat de intuïtie het karakter van de oplossing kan begrijpen en een vergelijkingsoplosser numeriek kan oplossen voor de waarden. ${\ Displaystyle \ lambda (t)}$ ${\ Displaystyle \ lambda (t)}$

Na verkregen te hebben , kan de optimale turn-t-waarde voor de besturing meestal worden opgelost als een differentiaalvergelijking die afhankelijk is van kennis van . Ook hier komt het zelden voor, vooral bij continu-tijdproblemen, dat men de waarde van de controle of de toestand expliciet verkrijgt. Gewoonlijk is de strategie om drempels en regio's op te lossen die de optimale controle kenmerken en een numerieke oplosser te gebruiken om de werkelijke keuzewaarden in de tijd te isoleren. ${\ Displaystyle \ lambda (t)}$ ${\ Displaystyle \ lambda (t)}$

eindige tijd

Denk eens aan het probleem van een mijneigenaar die moet beslissen in welk tempo hij erts uit zijn mijn haalt. Zij bezitten vanaf heden tot heden rechten op het erts . Op dat moment zit er erts in de grond en de tijdsafhankelijke hoeveelheid erts die in de grond achterblijft, neemt af naarmate de mijneigenaar het onttrekt. De mijneigenaar wint erts tegen kostprijs (de winningskosten nemen toe met het kwadraat van de winningssnelheid en het omgekeerde van de hoeveelheid erts die overblijft) en verkoopt erts tegen een constante prijs . Elk erts dat op dat moment in de grond achterblijft, kan niet worden verkocht en heeft geen waarde (er is geen "schrootwaarde"). De eigenaar kiest de extractiesnelheid die in de loop van de tijd varieert om de winst over de eigendomsperiode te maximaliseren zonder tijdskorting. $0$ $T$ $0$ $x_{0}$ $x(t)$ $u(t)$ $u(t)^{2}/x(t)$ $p$ $T$ $u(t)$

1. Discrete versie

De manager maximaliseert de winst : $\Pi$

\Pi =\sum \limits _{t=0}^{T-1}\left[pu_{t}-{\frac {u_{t}^{2}}{x_{t}}} \Rechtsaf]

onderworpen aan de wet van evolutie voor de toestandsvariabele $x_{t}$

x_{t+1}-x_{t}=-u_{t}\!

Vorm de Hamiltoniaan en onderscheid:

H=pu_{t}-{\frac {u_{t}^{2}}{x_{t}}}-\lambda _{t+1}u_{t}

{\frac {\gedeeltelijke H}{\gedeeltelijke u_{t}}}=p-\lambda _{t+1}-2{\frac {u_{t}}{x_{t}}}= 0

\lambda _{t+1}-\lambda _{t}=-{\frac {\partial H}{\partial x_{t}}}=-\left({\frac {u_{t} }{x_{t}}}\right)^{2}

Aangezien de mijneigenaar geen waarde hecht aan het erts dat op dat moment overblijft , $T$

\lambda _{T}=0\!

Met behulp van de bovenstaande vergelijkingen is het gemakkelijk op te lossen voor de en reeks $x_{t}$ $\lambda _{t}$

\lambda _{t}=\lambda _{t+1}+{\frac {(p-\lambda _{t+1})^{2}}{4}}

x_{t+1}=x_{t}{\frac {2-p+\lambda _{t+1}}{2}}

en met behulp van de begin- en turn-T-voorwaarden kan de reeks expliciet worden opgelost, waardoor . $x_{t}$ $u_{t}$

2. Continue-tijdversie

De manager maximaliseert de winst : $\Pi$

\Pi =\int \limits _{0}^{T}\left[pu(t)-{\frac {u(t)^{2}}{x(t)}}\right]dt

waarbij de toestandsvariabele als volgt evolueert: $x(t)$

{\dot {x}}(t)=-u(t)

Vorm de Hamiltoniaan en onderscheid:

H=pu(t)-{\frac {u(t)^{2}}{x(t)}}-\lambda (t)u(t)

{\frac {\partial H}{\partial u}}=p-\lambda (t)-2{\frac {u(t)}{x(t)}}=0

{\dot {\lambda }}(t)=-{\frac {\partial H}{\partial x}}=-\left({\frac {u(t)}{x(t)} }\rechts)^{2}

Aangezien de mijneigenaar geen waarde hecht aan het erts dat op dat moment overblijft , $T$

\lambda (T)=0

Met behulp van de bovenstaande vergelijkingen is het gemakkelijk op te lossen voor de differentiaalvergelijkingen die gelden voor en $u(t)$ ${\ Displaystyle \ lambda (t)}$