6章 動的計画法と最小原理

この章では残余コスト(cost-to-go)からハミルトンヤコビベルマン方程式を導入する.また最適軌道からの「ずれ」に対する勾配がゼロになるという条件からポントリャーギンの最小原理が導かれ,随伴変数と制御入力の幾何学的な理解が得られる.本書の中で最も深遠な章であるといえるかもしれない.

6.1 ハミルトン-ヤコビ-ベルマン方程式

例によって終端時刻 \(t_f\) を固定した時に任意の \(t \in [t_0, t_f]\) について \(x(t)\) から始めた時のcost-to-goを \(V(x, t)\) とする.つまり,

\begin{align*} V(x, t) = \min_{u[t, t_f]}\left( \phi(x(t_f)) + \int_{t_0}^{t_f} L(x(\tau), u(\tau), \tau) d\tau \right) \end{align*}

すると時刻 \(t\) から \(dt\) だけ進んだ時刻において評価区間 \(t \in [t+dt, t_f]\) における最適制御のcost-to-goは \(V(x + f(x, u, t)dt, t+dt)\) で表されるから

\begin{align*} V(x, t) &= \min_{u[t, t+dt]}\left( \int_{t}^{t_f}L(x(\tau), u(\tau), \tau) d\tau + V(x + f(x, u, t) dt, t + dt)\right) \\ &= \min_{u}(L(x, u, t) dt + V(x + f(x, u , t)dt, t + dt)) \end{align*}

ここで \(V(X + fdt, t + dt)\) をテイラー展開すると

\begin{align*} V(x + f(x, u ,t)dt, t + dt) \sim V(x, t ) + \dfrac{\partial V}{\partial x}(x, t)f(x, u, t)dt + \dfrac{\partial V}{\partial t}(x, t)dt \end{align*}

となり,代入すると

\begin{align*} \min_{u}\left( L(x, u, t) + \dfrac{\partial V}{\partial x}(x, t)f(x, u, t) + \dfrac{\partial V}{\partial t}(x, t) \right)= 0 \end{align*}

ここでハミルトン関数 \(H = L + \lambda^{\text{T}}f\) を用いると

\begin{align*} L(x, u ,t) + \dfrac{\partial V}{\partial x}(x, t)f(x, u, t) = H\left(x, u, \left( \dfrac{\partial V}{\partial x}\right)^{\text{T}}(x, t), t \right) \end{align*}

のように \(\lambda\) に値関数の偏微分を代入した形として表すことができる.従って以下のようなハミルトン-ヤコビ-ベルマン方程式が得られる.

\begin{align*} -\dfrac{\partial V}{\partial t}(x, t) = \min_{u}H \left( x, u, \left( \dfrac{\partial V}{\partial x}\right)^{\text{T}}(x, t), t \right) \end{align*}

6.2. 最小原理

変分法により導かれたオイラーラグランジュ方程式が常微分方程式の2点境界値問題であるのに対し,動的計画法から導かれるHBJ方程式は偏微分方程式である.両者の関係は一見すると分からないが,両者とも同じ最適制御問題から導かれている.ここでは動的計画法から最小原理と呼ばれるものを経由してオイラーラグランジュ方程式が導かれることをみる.ハミルトン関数における随伴変数 \(\lambda\) が値関数の偏微分に置き換わっていることは大きなヒントである.

例によって最適軌道と最適入力 \(\bar{x}(t), \bar{u}(t)\) の存在を仮定する.すると入力 \(\bar{u}(t)\)\(\bar{x}(t)\) 以外の一般の状態に対しては最適とは限らないから,ベルマン方程式の「ずれ」の関数は以下を満たす.

\begin{align*} \eta(x, t) := \dfrac{\partial V}{\partial t} + H \left( x, \bar{u}, \left( \dfrac{\partial V}{\partial x}\right)^{\text{T}}, t \right) \geq 0 \end{align*}

そしてこの左辺は \(x(t) = \bar{x}(t)\) のとき最小値0を取るはずである.そのため,

\begin{align*} \dfrac{\partial \eta}{\partial x}(\bar{x}(t), t) = 0 \end{align*}

が成立する.計算すると

\begin{align*} \dfrac{\partial^{2} H}{\partial t \partial x} + \dfrac{\partial H}{\partial x} + \dfrac{\partial H}{\partial \lambda}\dfrac{\partial^{2} V}{\partial x^{2}} = \dfrac{\partial^{2} H}{\partial t \partial x} + \dfrac{\partial H}{\partial x} + f^{\text{T}}\dfrac{\partial^{2} V}{\partial x^{2}} = 0 \end{align*}

となる.ところで

\begin{align*} \dfrac{d}{dt}\left( \dfrac{\partial V}{\partial x}\right)^{\text{T}}= \dfrac{\partial^{2} V}{\partial x^{2}}f + \dfrac{\partial}{\partial t}\left(\dfrac{\partial V}{\partial x} \right)^{\text{T}} = \left( f^{\text{T}}\dfrac{\partial^{2} V}{\partial x^{2}} + \dfrac{\partial^{2} V}{\partial t \partial x}\right)^{\text{T}} \end{align*}

であるから,先ほどの式は

\begin{align*} \dfrac{d}{dt}\left( \dfrac{\partial V}{\partial x}\right)(\bar{x}(t), t) = -\left(\dfrac{\partial H}{\partial x} \right)\left(\bar{x}, \bar{u}, \dfrac{\partial V}{\partial x}, t \right) \end{align*}

となり,終端条件として

\begin{align*} \dfrac{\partial V}{\partial x} (\bar{x}(t_f), t_f) = \dfrac{\partial \phi}{\partial x}(\bar{x}(t_f)) \end{align*}

を満たすから,これはオイラーラグランジュ方程式における随伴変数に他ならない.また

\begin{align*} H(\bar{x}, \bar{u}, \lambda, t) = \min_{u}H(\bar{x}, u, \lambda, t) \end{align*}

より最適軌道沿いのハミルトン関数のuによる偏微分は0になる.