Neural Lyapnov Control

Author:Ya-Chien Chang, Nima Roohi, Sicun Gao
Year:2019
Link:link
Accepted:33rd Conference on Neural Information Processing Systems (NeurIPS 2019)

Abstract

この論文では非線形系に対する安定性が保証された制御方策とLyapnov関数を学習するための新たな手法を提案している.提案手法はLyapnov関数を見つけようとするlearner(学習者)とlearnerが解へと誘導されるよう反例を見つけようとするfalsifier(偽造者)からなる.最終的にfalsifierが反例を見つけられなくなるとアルゴリズムは停止する.提案手法によりLyapnov関数の設計がより簡単になり,従来のLQR/SOS/SDPより大きいregion of attractionが得られる.

Introduction

近年の学習ベースの制御手法としては,不確実な環境との相互作用を通してニューラルネットワークを利用して制御方策を学習する深層強化学習が盛んに研究されている.しかしサンプリングの複雑性や解釈の困難さ,安全性などの問題で即座に利用することは妨げられている.本研究では異なる方向性を掲げている.「学習ベースの手法は古典的な非線形制御系設計においても有効であるのか?」という点である.安定性が保証された非線形系のフィードバック制御系を設計するという問題に焦点を当てている.ニューラルネットワークと深層学習は系の非線形性を十分に扱うことができ,線形と(代数的な)近似に基づいた従来の手法(LQR, SOS, SDP)の性能を上回ることを示す.

非線形系を安定化する手法として広く用いられているのは平衡点周りでの線形化を行いLQRにより平衡点からの偏移を最小化することである.LQRでは線形近似が妥当な近傍においては安定性が保証されている.しかし線形化に頼ることにより保守的な制御になってしまう.そのためagile locomotionが困難だったりする.線形近似できない領域ではLyapunov関数を用いる必要がある.エネルギーが減少するならばシステムが安定化するというアイデアから,システムを安定化させるようなスカラー場を構成するのがLyapunov法である.このスカラー場は高度に非線形であるため,関数近似の必要性が認識されている[13].多項式近似を行うという方向で多くの研究がなされているが,システムの形に制限をかけてしまう.提案手法ではニューラルネットワークの表現力を利用することにより従来の手法により実現されるものよりも大きいregion of attractionを実現できることを示す.

提案手法はlearnerとfalsifierからなる.learnerは Lyapnov risk と呼ばれるLyapunov関数としての要件からのviolationを測る関数を最小化することで制御方策とLyapunov関数のパラメータ(NNの重み)を確率的勾配法により求める.falsifierは更新された制御方策とLyapunov関数を受け取りLyapunov条件を破る状態ベクトルを反例として返す.この反例は訓練集合に加えられ,より効率的な学習のcurriculumとして用いられる.反例を見つけるのには"delta-complete constraint solver"というものが用いられている(Satisfiability Modulo Theoryにおけるsolverのようだ).これにより禁則状態がないかを調べる.このフレームワークではコスト関数に"regulator term"を追加することでregion of attractionを拡大することができることを示す.

Preliminaries