第一課 強化學習綜述
1.強化學習要解決的問題
2.強化學習的發展歷史
3.強化學習方法的分類
4.強化學習方法的發展趨勢
5.環境搭建實驗(Gym,TensorFlow等)
6.Gym環境的基本使用方法
7.TensorFlow基本使用方法
第二課 馬爾科夫決策過程
1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程
2.MDP基本元素:策略、回報、值函數、狀態行為值函數
3.貝爾曼方程
4.最優策略
5.Python介紹及簡單的代碼演示
案例:構建機器人找金幣和迷宮的環境
第三課 基于模型的動態規劃方法
1.動態規劃概念介紹
2.策略評估過程介紹
3.策略改進方法介紹
4.策略迭代和值迭代
5.值迭代與最優控制介紹
6.基于 python 的動態規劃方法演示
案例:實現基于模型的強化學習算法
第四課 蒙特卡羅方法
1.蒙特卡羅策略評估方法
2.蒙特卡羅策略改進方法
3.基于蒙特卡羅的強化學習方法
4.同策略和異策略強化學習
5.重要性采樣
6.基于 python 的蒙特卡羅強化學習方法演示
案例:利用蒙特卡羅方法實現機器人找金幣和迷宮
第五課 時序差分方法
1.DP,MC 和TD方法比較
2.MC和TD方法偏差與方差平衡
3.同策略TD方法:Sarsa 方法
4.異策略TD方法:Q-learning 方法
5.N步預測及的前向和后向觀點
案例:Q-learning和Sarsa的實現
第六課 基于值函數逼近方法
1.值函數的參數化表示
2.值函數的估計過程
3.神經網絡基礎講解
4.DQN 方法介紹
5.DQN變種:Double DQN, Prioritized Replay, Dueling Network
案例:用DQN玩游戲——flappy bird
第七課 策略梯度方法
1.策略梯度方法介紹
2.似然率策略梯度推導及重要性采樣視角推導
3.似然率策略梯度的直觀理解
4.常見的策略表示
5.常見的減小方差的方法:引入基函數法,修改估計值函數法
案例:利用gym和tensorflow實現小車倒立擺系統,乒乓球游戲
第八課 TRPO方法介紹及推導
1.替代回報函數的構建
2.單調的改進策略
3.TRPO 實用算法介紹
4.共軛梯度法搜索可行方向
5.PPO方法
6.基于python的TRPO方法實現
案例:trpo算法和ppo算法實現
第九課 AC方法
1.隨機策略與確定性策略比較
2.隨機策略AC的方法
3.確定性策略梯度方法
4.DDPG 方法及實現
5.A3C方法講解
案例:基于 python 的 DDPG 方法實現
第十課 逆向強化學習
1.基于最大邊際的方法
2.學徒學習、MMP
3.結構化分類、神經逆向強化學習
4.基于概率模型的方法
5.最大熵、相對熵
6.深度逆向強化學習
案例:略