深層強化学習の基本と最重要ポイント,中核アルゴリズム,関数近似手法,応用事例,応用ノウハウについて
動画,簡易デモを交えて経験をもとに研究やビジネスに活用するよう解説する特別セミナー!!
- 講師
電気通信大学 i-パワードエネルギーシステム研究センター&基盤理工学専攻 准教授 曽我部 東馬 先生
(株)GRID 最高技術顧問 兼任
- 日時
- 会場
- 受講料
- 1名:48,600円 同時複数人数申込みの場合 1名:43,200円
- テキスト
受講概要
受講対象
・AIの最先端知識と技術に興味をお持ちの方。 ・AIの研究と応用を検討されている方。 ・AIを含めた最適化技術の応用に携わっている方。 ・「最適化とは何か?」を知りたい方。 ・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方。
予備知識
特に予備知識は必要ありません。基礎からわかりやすく解説いたします。
習得知識
1)強化学習の基本原理と要素技術の基本知識の習得 2)深層学習の基本原理と要素技術の基本知識の習得 3)深層強化学習の基本原理と応用に関する知見の習得 4)最先端最適化技術の可能性と問題点についての知見を習得
講師の言葉
2016年、世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現により、日本を含め世界中でAIに対する 期待が高まっています。 また昨年、AlphaGoのシリーズにAlphaGo Zero とAlphaZeroが現れ、人間の経験を使用せずscratchから 強くなるという典型的な強化学習手法が学術産業界から一層注目を集めています。 AIの研究や将来のビジネスチャンスを踏まえたAIの応用を真剣に検討されている方々にとっては、 深層学習の先にある「深層強化学習手法」の基本原理をしっかり理解することがマストといえるでしょう。 しかし現状としては、深層強化学習手法をわかりやすく説明している資料はなかなか見当たりません。 本セミナーはこのような現状を踏まえ、深層強化学習の基本と応用において下記をポイントに講義の内容を構成しました。 【1】最も基本となる強化学習の中核アルゴリズムについて、例題と「動画」を通して、アルゴリズムの コードを砕きながらなるべくわかりやすく説明します。 【2】強化学習と深層学習の架け橋となる関数近似器の説明について工夫を加えます。難解といわれる 「深層強化学習」をよりわかり易く理解するために、まず「簡易型の線形回帰近似モデル」を応用した 強化学習手法について簡易デモなどを用いてわかりやすく説明します。 これによりニューラルネットワーク近似モデルを使用する深層強化学習への理解が更に深まることを期待します。 【3】深層強化学習はニューラルネットワークに適した新しいアルゴリズムが近年、多数提案され、 従来の強化学習手法より著しく向上した学習結果が得られています。 本セミナーは最新深層強化学習アルゴリズムの理論土台になる確率方策勾配と決定的方策勾配法の違いを 徹底的に分析し、簡易モデルを通してわかりやすく説明します。 【4】担当講師の実際の研究内容を踏まえ、現場での深層強化学習の応用ノウハウと経験を解説し、 受講者の皆様がすぐ役立つスキルを持ち帰ることができるよう内容を準備します。 これまで、延120人に深層強化学習を含めた強化学習の入門講義を実践した経験を元に、様々な背景を持つ 受講者のみなさんにとって「どこが難しく感じるのか」あるいは「どこをもっと説明してほしいのか」を配慮。 目的に合わせて、理解しやすく、実際に役立てられるように講義内容の難易度を調整しています。 本セミナーを通して、現在、話題の深層学習の先にある「深層強化学習」の基本知識と応用情報を入手し、 是非、研究やビジネスに活用して頂ければ幸いです。
プログラム
第1部 はじめに 1.1 強化学習の基本概念 1.2 強化学習・深層学習および深層強化学習の特徴と違い 1.3 深層強化学習により可能となること 1.4 強化学習における探索と利用のジレンマ 1.5 多腕バンディット問題の解法をわかりやすく説明 ・Epsilon-greedy ・最適初期値設定法 ・UCB1 ・Bayesian/Thompson 法の詳細 1.6簡易デモ(python):Gridworld(上記4種類解法の実行:直感的に理解する) 第2部 基本概念:マルコフ決定過程(MDP)の基本原理のポイント 2.1 マルコフ性とは 2.2 平均という簡単な概念からMDPを学ぶ 2.3 MDPの定義と式の導き方 2.4 状態遷移確率と行動確率の違い 2.5 価値関数V(s)と状態行動価値関数[Q(s,a)]の定義 2.6 簡易演習デモ(python)1:Gridworld(式を理解するために) 2.7 最適状態価値関数V_* (s)のポイント 2.8 最適状態行動価値関数Q_* (s,a)のポイント 2.9 簡易デモ(python)2:Gridworld(式を理解する) 2.10 ディスカッション:最適性と近似性について 第3部 中核:強化学習におけるMDP問題の解法 3.1 動的計画法の解説と入門 ・最適な方策の探索手法をわかりやすく説明 ・方策反復法による最適状態価値関数を求める ・価値反復法による最適状態価値関数を求める ・簡易デモ(python):Gridworld(4種類解法の実行と結果比較:概念を理解する) 3.2 Monte-Carlo(MC)法をわかりやすく解説 ・モデル法とモデルフリー法のちがい ・MC法による最適状態行動価値関数Q(s,a)の求め方とポイント ・簡易デモ(python):Gridworld(2種類MC法の実行と比較:概念を理解する) 3.3 TD学習手法のポイントと入門 ・SARSA法の説明と式の導きかた ・Q-学習法の説明と式の導きかた ・On-PolicyとOff-Policyを詳しく説明 ・簡易デモ(python):Gridworld(3種類TD法の実行と比較:概念を理解する) 第4部 拡張:強化学習における関数近似手法とは(入門編) 4.1 Tabular法(表形式手法)と近似解法のちがい 4.2 回帰モデルと誤差関数をあらためて復習 4.3 最急降下勾配法とMC法との関連性をわかりやすく説明 4.4 疑似勾配(Semi-Gradient)とは 4.5 簡単な線形回帰モデルに基いたMC法による状態価値関数V(s,θ)を求める 4.6 簡単な非線形回帰モデルに基いたTD(0)法によるV(s,θ)を求める 4.7 簡単な非線形回帰モデルに基いたSARSA法によるV(s,θ)を求める 4.8 簡易デモ(python):Gridworld(回帰近似MDP解法の実行:直感的理解) 第5部 最前線:深層強化学習の基本概念と最重要ポイント 5.1 簡易型ニューラルネットワークを応用したQ-学習手法の説明 5.2 深層Q-学習(DQN)の基本ポイント 5.3 連続動作空間における強化学習のポイント 5.4 方策勾配法の基本と式の導き方 5.5 ガウシアン型行動確率分布の導入 5.6 方策勾配法による連続動作空間における強化学習の簡易説明 5.7 深層Actor-Critic法の基本と実行のコツ 5.8 確率方策勾配法と決定的方策勾配の比較 5.9 決定的方策勾配DDPGの長所と短所について分析 5.10 簡易実演デモ(python): Mountain car, Cartpole, Atariなど (概念の理解) 第6部 応用:強化学習と深層強化学習の応用事例 6.1 蓄電池充放電制御における強化学習の応用事例 6.2 混合整数計画問題における深層強化学習応用事例 6.3 PID制御素子における強化学習の応用事例 □全体のまとめと質疑応答・名刺交換□
講師紹介
物理学の専門家で、東京大学物性研究所、国立分子研究所で学び、ドイツ マックス・プランク研究所、 イギリス ケンブリッジで働いた後、2009年に一旦研究分野から離れ、(株)グリッドの共同設立者となり 会社を立ち上げる。その後、東京大学 先端科学技術研究センターに研究の場所を移し、特任准教授として 量子構造半導体デバイスの開発及びその理論計算、人工知能の研究を行う。2016年より電気通信大学の 准教授および(株)GRIDの最高技術顧問を兼任。現在は、再生エネルギー最適化問題と人工知能の アルゴリズム開発、深層強化学習フレームワーク∞ReNomの開発に従事する。