image

ニュース & イベント

第3回生命体工学セミナー
日時:2015年7月10日 (金) 14:40〜16:10
会場:ひびきのキャンパス 講義室2
題目:「Recent Progress on Reinforcement Learning」
講師: Dr. Eiji Uchibe (Neural Computation Unit, OIST)

強化学習は環境からのフィードバックに基づき制御則を学習するための、また意思決定の脳内メカニズムを理解するための計算論的枠組みである。この講演では強化学習に関連する次の三つの重要な進捗である (1) 深層強化学習、(2) 報酬の設計論、(3) 制御と推論の相同性について概説する。最初のトピックは深層強化学習で、これは(順)強化学習と深層学習を組み合わせたもので、Google DeepMindが今年Natureに論文を発表して以来、高次元のセンサ空間から直接制御則を学習するための方法として注目を集めている。彼らはAtari 2600というコンピュータゲームにおいて人間よりもうまくゲームをプレイできることを示すなど非常に注目すべき成功を成し遂げたが、彼らが使用している技術は畳み込みネットワーク、経験の再利用、目標値の固定といった20年前のものである。また学習に時間がかかる、パラメータ設定に敏感であるという問題も報告されている。これに対し、我々は新しい単調増加でない非線形な活性度関数を導入したアプローチを紹介し、実験による従来の物よりも簡単かつ高速に学習できることを示す。次に、ロボットをどのように訓練するかという報酬の設計論について議論する。良い報酬を発見するために、本セミナーでは報酬に関する二つのアプローチを紹介する。一つは逆強化学習と呼ばれる枠組みで、観察された行動が最適であると仮定し、そこから報酬を推定する。ただし逆強化学習は逆問題であるため、一般には唯一解をもたない。この問題に対し、我々は最適制御則からのサンプルだけでなく、ベースラインとなる制御則からのサンプルを利用するように問題を修正したとき、問題を効率よく説くことのできる密度比推定を用いた逆強化学習を提案している。もう一つは内発的動機付けに基づいた強化学習で、タスク非依存の内発的報酬を用いて環境からのフィードバックを増強する枠組みであるが、内発的報酬は必ずしもタスクに有効なものとは限らない。我々は外発的報酬による制約を導入した強化学習法を提案している。我々の方法が報酬の設計に関して有用であることを示す。最後に強化学習分野における最適制御と最適推論の相同性について簡単に触れる。最適制御則を求めるためには一般に非線形偏微分方程式であるHamilton-Jacobi-Bellman (HJB)方程式を解く必要があるが、相同性に関する研究の進捗により、報酬関数に情報理論的な制約を導入することでHJB方程式が簡単になることが示された。結果として、いくつかの確率的最適制御問題を最適推論問題に変換することができ、最先端の強化学習アルゴリズムであるKL制御や経路積分強化学習などが導出された。時間の許す限り、我々のアプローチを紹介したい。

入学案内

出稽古修行型の分野横断研鑽システム

カーロボ

カーエレクトロニクスコース
brain-is

九工大 21世紀COE 成果公開中

このページのトップへ