葉梓
            • 葉梓國內知名上市IT企業的資深技術專家,高級工程師
            • 擅長領域: 人工智能 大數據
            • 講師報價: 面議
            • 常駐城市:上海市
            • 學員評價: 暫無評價 發表評價
            • 助理電話: 13006597891 QQ:2116768103 微信掃碼加我好友
            • 在線咨詢

            強化學習

            主講老師:葉梓
            發布時間:2021-05-21 14:54:00
            課程詳情:

            第一課 強化學習綜述

            1.強化學習要解決的問題

            2.強化學習的發展歷史

            3.強化學習方法的分類

            4.強化學習方法的發展趨勢

            5.環境搭建實驗(Gym,TensorFlow等)

            6.Gym環境的基本使用方法

            7.TensorFlow基本使用方法


            第二課 馬爾科夫決策過程

            1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程

            2.MDP基本元素:策略、回報、值函數、狀態行為值函數

            3.貝爾曼方程

            4.最優策略

            5.Python介紹及簡單的代碼演示

            案例:構建機器人找金幣和迷宮的環境


            第三課 基于模型的動態規劃方法

            1.動態規劃概念介紹

            2.策略評估過程介紹

            3.策略改進方法介紹

            4.策略迭代和值迭代

            5.值迭代與最優控制介紹

            6.基于 python 的動態規劃方法演示

            案例:實現基于模型的強化學習算法


            第四課 蒙特卡羅方法

            1.蒙特卡羅策略評估方法

            2.蒙特卡羅策略改進方法

            3.基于蒙特卡羅的強化學習方法

            4.同策略和異策略強化學習

            5.重要性采樣

            6.基于 python 的蒙特卡羅強化學習方法演示

            案例:利用蒙特卡羅方法實現機器人找金幣和迷宮


            第五課 時序差分方法

            1.DP,MC 和TD方法比較

            2.MC和TD方法偏差與方差平衡

            3.同策略TD方法:Sarsa 方法

            4.異策略TD方法:Q-learning 方法

            5.N步預測及的前向和后向觀點

            案例:Q-learning和Sarsa的實現


            第六課 基于值函數逼近方法

            1.值函數的參數化表示

            2.值函數的估計過程

            3.神經網絡基礎講解

            4.DQN 方法介紹

            5.DQN變種:Double DQN, Prioritized Replay, Dueling Network

            案例:用DQN玩游戲——flappy bird


            第七課 策略梯度方法

            1.策略梯度方法介紹

            2.似然率策略梯度推導及重要性采樣視角推導

            3.似然率策略梯度的直觀理解

            4.常見的策略表示

            5.常見的減小方差的方法:引入基函數法,修改估計值函數法

            案例:利用gym和tensorflow實現小車倒立擺系統,乒乓球游戲


            第八課 TRPO方法介紹及推導

            1.替代回報函數的構建

            2.單調的改進策略

            3.TRPO 實用算法介紹

            4.共軛梯度法搜索可行方向

            5.PPO方法

            6.基于python的TRPO方法實現

            案例:trpo算法和ppo算法實現


            第九課 AC方法

            1.隨機策略與確定性策略比較

            2.隨機策略AC的方法

            3.確定性策略梯度方法

            4.DDPG 方法及實現

            5.A3C方法講解

            案例:基于 python 的 DDPG 方法實現


            第十課 逆向強化學習

            1.基于最大邊際的方法

            2.學徒學習、MMP

            3.結構化分類、神經逆向強化學習

            4.基于概率模型的方法

            5.最大熵、相對熵

            6.深度逆向強化學習

            案例:略


            授課見證
            推薦講師

            馬成功

            Office超級實戰派講師,國內IPO排版第一人

            講師課酬: 面議

            常駐城市:北京市

            學員評價:

            賈倩

            注冊形象設計師,國家二級企業培訓師,國家二級人力資源管理師

            講師課酬: 面議

            常駐城市:深圳市

            學員評價:

            鄭惠芳

            人力資源專家

            講師課酬: 面議

            常駐城市:上海市

            學員評價:

            晏世樂

            資深培訓師,職業演說家,專業咨詢顧問

            講師課酬: 面議

            常駐城市:深圳市

            學員評價:

            文小林

            實戰人才培養應用專家

            講師課酬: 面議

            常駐城市:深圳市

            學員評價:

            精品国产亚洲一区二区三区| 国产成人精品天堂| 99视频都是精品热在线播放| 国产精品成人精品久久久| 99re6在线视频精品免费下载| 2021免费日韩视频网| 日本伊人精品一区二区三区| 精品一区二区三区水蜜桃| 久久精品久噜噜噜久久| 亚洲av无码国产精品色午夜字幕| 中日韩无一线二线三线区别| 最新国产精品好看的国产精品| 久久夜色撩人精品国产| 国产精品亚洲а∨天堂2021| 久久精品国产乱子伦| 中文精品久久久久人妻| 无码国产亚洲日韩国精品视频一区二区三区 | 国内精品久久国产大陆| 国产精品手机在线亚洲| 国产精品久久波多野结衣| 久久精品国产自在一线| mm1313亚洲精品无码又大又粗 | 国产乱码精品一区二区三区四川| 亚洲精品国产成人专区| 国产亚洲婷婷香蕉久久精品| 久久精品综合一区二区三区| 四虎成人精品国产永久免费无码| 久久夜色精品国产噜噜麻豆| 四虎亚洲精品高清在线观看| 91精品国产综合久久香蕉| 99精品国产三级在线观看| 国99精品无码一区二区三区| 国产精品亚韩精品无码a在线| 久久九九久精品国产日韩经典| 久久这里只精品99re66| 精品国产天线2019| 久久精品一区二区三区AV| 国产精品视频一区二区噜噜| 久久成人影院精品777| 午夜亚洲av永久无码精品| 在线日韩麻豆一区|