Kaj je teorija optimalnega krmiljenja?

Optimalna teorija krmiljenja se v veliki meri uporablja tako v znanosti kot v inženirstvu. To je tehnika matematične optimizacije, ki se običajno uporablja pri ustvarjanju nadzornih politik. Lev Pontryagin, skupaj s svojo ekipo v nekdanji Sovjetski zvezi, in Američan Richard Bellman sta večinoma odgovorna za teorijo optimalnega nadzora. Splošni cilj teorije je uporabiti različne metode analize za določanje parametrov sistema z izvajanjem procesov poskusov in napak.

Teorija optimalnega krmiljenja je uporabna, ko poskušamo rešiti probleme nenehne optimizacije časa. Teorija se loteva problema z določitvijo regulacijskega zakona za hipotetični sistem, da se doseže raven optimalnosti. Optimalni nadzor je sestavljen iz niza različnih enačb, ki opisujejo poti spremenljivk, ki znižajo stroškovni funkcional na minimum. Funkcija stroškov je v bistvu funkcija spremenljivk, povezanih s stanjem in nadzorom. Optimalna teorija krmiljenja uporablja princip Pontryagin maksimuma, ki na splošno pravi, da je mogoče rešiti optimizacijski problem P z uporabo Hamiltonove funkcije H v enem obdobju, kar je potreben pogoj. Teorijo je mogoče izpeljati tudi s Hamilton-Jacobi-Bellmanovo enačbo.

Da bi človeku pomagali razumeti teorijo optimalnega nadzora, se običajno uporablja primer »vožnja z avtomobilom po hribovite cesti«. Predstavljajte si, da potujete z avtomobilom po skalnati cesti v ravni črti. Teorija lahko določi, kako je treba pospešiti, da bi zmanjšali absolutni čas potovanja. V takem primeru je »sistem« sestavljen iz vozila in skalnate ceste, merilo optimalnosti pa je doseganje minimiziranja časa potovanja. Znano je, da takšne težave vključujejo omejitve (npr. omejitev goriva, omejitve hitrosti). Drugo vprašanje je lahko iskanje načina, kako bi avtomobil optimiziral svojo porabo goriva, medtem ko mora opraviti določen tečaj v določenem časovnem roku.

Drug primer uporabe teorije optimalnega krmiljenja je reševanje stroškovne ali senčne cene. Sestavljen je iz mejne vrednosti razširitve spremenljivke stanja. Ko se to reši, lahko optimalna vrednost za kontrolo oblikuje diferencialno enačbo, ki je pogojena z zavedanjem kostata. Običajno je, da se ta strategija reši za regije, ki opisujejo optimalno kontrolo in pravočasno ločijo dejanske izbirne vrednosti.