動手學強化學習
內容描述
本書系統地介紹了強化學習的原理和實現,是一本理論扎實、落地性強的圖書。本書包含3個部分:第一部分為強化學習基礎,講解強化學習的基礎概念和表格型強化學習方法;第二部分為強化學習進階,討論深度強化學習的思維方式、深度價值函數和深度策略學習方法;第三部分為強化學習前沿,介紹學術界在深度強化學習領域的主要關註方向和前沿算法。同時,本書提供配套的線上代碼實踐平臺,展示源碼的編寫和運行過程,讓讀者進一步掌握強化學習算法的運行機制。本書理論與實踐並重,在介紹強化學習理論的同時,輔之以線上代碼實踐平臺,幫助讀者通過實踐加深對理論的理解。本書適合對強化學習感興趣的高校學生、教師,以及相關行業的開發和研究人員閱讀、實踐。
目錄大綱
第 一部分 強化學習基礎 第 1 章 初探強化學習 21.1 簡介 21.2 什麽是強化學習 21.3 強化學習的環境 41.4 強化學習的目標 41.5 強化學習中的數據 51.6 強化學習的獨特性 61.7 小結 6第 2 章 多臂老虎機問題 7 2.1 簡介 72.2 問題介紹 72.2.1 問題定義 72.2.2 形式化描述 82.2.3 累積懊悔 82.2.4 估計期望獎勵 82.3 探索與利用的平衡 102.4 -貪婪算法 112.5 上置信界算法 142.6 湯普森採樣算法 162.7 小結 182.8 參考文獻 18第 3 章 馬爾可夫決策過程 19 3.1 簡介 193.2 馬爾可夫過程 193.2.1 隨機過程 193.2.2 馬爾可夫性質 193.2.3 馬爾可夫過程 203.3 馬爾可夫獎勵過程 213.3.1 回報 213.3.2 價值函數 223.4 馬爾可夫決策過程 243.4.1 策略 253.4.2 狀態價值函數 253.4.3 動作價值函數 253.4.4 貝爾曼期望方程 253.5 蒙特卡洛方法 283.6 占用度量 313.7 最優策略 323.8 小結 333.9 參考文獻 33第 4 章 動態規劃算法 34 4.1 簡介 344.2 懸崖漫步環境 344.3 策略迭代算法 364.3.1 策略評估 364.3.2 策略提升 364.3.3 策略迭代 374.4 價值迭代算法 404.5 冰湖環境 424.6 小結 454.7 擴展閱讀:收斂性證明 454.7.1 策略迭代 454.7.2 價值迭代 454.8 參考文獻 46第 5 章 時序差分算法 47 5.1 簡介 475.2 時序差分 485.3 Sarsa 算法 485.4 多步 Sarsa 算法 535.5 Q-learning 算法 565.6 小結 605.7 擴展閱讀:Q-learning 收斂性證明 615.8 參考文獻 62第 6 章 Dyna-Q 算法 63 6.1 簡介 636.2 Dyna-Q 636.3 Dyna-Q 代碼實踐 646.4 小結 696.5 參考文獻 69第二部分 強化學習進階 第 7 章 DQN算法 72 7.1 簡介 727.2 車桿環境 727.3 DQN 737.3.1 經驗回放 747.3.2 目標網絡 747.4 DQN代碼實踐 757.5 以圖像作為輸入的DQN算法 797.6 小結 807.7 參考文獻 80第 8 章 DQN改進算法 81 8.1 簡介 818.2 Double DQN 818.3 Double DQN代碼實踐 828.4 Dueling DQN 888.5 Dueling DQN代碼實踐 908.6 小結 938.7 擴展閱讀:對Q值過高估計的定量分析 938.8 參考文獻 94第 9 章 策略梯度算法 95 9.1 簡介 959.2 策略梯度 959.3 REINFORCE 969.4 REINFORCE代碼實踐 979.5 小結 1009.6 擴展閱讀:策略梯度證明 1009.7 參考文獻 102第 10 章 Actor-Critic算法 103 10.1 簡介 10310.2 Actor-Critic 10310.3 Actor-Critic代碼實踐 10510.4 小結 10810.5 參考文獻 108第 11 章 TRPO算法 109 11.1 簡介 10911.2 策略目標 10911.3 近似求解 11111.4 共軛梯度 11211.5 線性搜索 11211.6 廣義優勢估計 11311.7 TRPO代碼實踐 11411.8 小結 12211.9 參考文獻 123第 12 章 PPO算法 124 12.1 簡介 12412.2 PPO-懲罰 12412.3 PPO-截斷 12512.4 PPO代碼實踐 12512.5 小結 13112.6 參考文獻 132第 13 章 DDPG算法 133 13.1 簡介 13313.2 DDPG 13313.3 DDPG代碼實踐 13513.4 小結 140 13.5 擴展閱讀:確定性策略梯度定理的證明 14013.6 參考文獻 141第 14 章 SAC算法 142 14.1 簡介 14214.2 最大熵強化學習 14214.3 Soft策略迭代 14314.4 SAC 14314.5 SAC代碼實踐 14514.6 小結 15414.7 參考文獻 155第三部分 強化學習前沿 第 15 章 模仿學習 15815.1 簡介 15815.2 行為克隆 15915.3 生成對抗模仿學習 15915.4 代碼實踐 16015.4.1 生成專家數據 16015.4.2 行為克隆的代碼實踐 16315.4.3 生成對抗模仿學習的代碼實踐 16515.5 小結 16715.6 參考文獻 168第 16 章 模型預測控制 169 16.1 簡介 16916.2 打靶法 16916.2.1 隨機打靶法 17016.2.2 交叉熵方法 17016.3 PETS算法 17116.4 PETS算法實踐 17216.5 小結 17916.6 參考文獻 179第 17 章 基於模型的策略優化 180 17.1 簡介 18017.2 MBPO算法 18017.3 MBPO代碼實踐 18117.4 小結 19217.5 拓展閱讀:MBPO理論分析 19217.5.1 性能提升的單調性保障 19217.5.2 模型推演長度 19217.6 參考文獻 193第 18 章 離線強化學習 194 18.1 簡介 19418.2 批量限制 Q-learning算法 19518.3 保守 Q-learning算法 19718.4 CQL代碼實踐 19918.5 小結 20818.6 擴展閱讀 20818.7 參考文獻 210第 19 章 目標導向的強化學習 211 19.1 簡介 21119.2 問題定義 21119.3 HER算法 21219.4 HER代碼實踐 21319.5 小結 22119.6 參考文獻 221第 20 章 多智能體強化學習入門 222 20.1 簡介 22220.2 問題建模 22320.3 多智能體強化學習的基本求解範式 22320.4 IPPO算法 22320.5 IPPO代碼實踐 22420.6 小結 22820.7 參考文獻 229第 21 章 多智能體強化學習進階 230 21.1 簡介 23021.2 MADDPG算法 23021.3 MADDPG代碼實踐 23221.4 小結 24021.5 參考文獻 240總結與展望 241總結 241展望:剋服強化學習的落地挑戰 241中英文術語對照表與符號表 244中英文術語對照表 244符號表 246
作者介紹
张伟楠,上海交通大学副教授,博士生导师,ACM班机器学习、强化学习课程授课老师,吴文俊人工智能优秀青年奖、达摩院青橙奖得主,获得中国科协“青年人才托举工程”支持。他的科研领域包括强化学习、数据挖掘、知识图谱、深度学习以及这些技术在推荐系统、搜索引擎、文本分析等场景中的应用。他在国际会议和期刊上发表了100余篇相关领域的学术论文,于2016年在英国伦敦大学学院(UCL)计算机系获得博士学位。沈键,上海交通大学APEX实验室博士生,师从俞勇教授,研究方向为深度学习、强化学习和教育数据挖掘。在攻读博士期间,他以第一作者身份发表机器学习国际会议NeurIPS、AAAI论文,参与发表多篇机器学习和数据挖掘国际会议(包括ICML、IJCAI、SIGIR、KDD、AISTATS等)论文,并担任多个国际会议和SCI学术期刊的审稿人。俞勇,享受国务院特殊津贴专家,教学名师,上海交通大学特聘教授,APEX实验室主任,上海交通大学ACM班创始人。俞勇教授曾获得“国家高层次人才特殊支持计划”教学名师、“上海市教学名师奖”“全国师德标兵”“上海交通大学校长奖”和“最受学生欢迎教师”等荣誉。他于2018年创办了伯禹人工智能学院,在上海交通大学ACM班人工智能专业课程体系的基础上,对AI课程体系进行创新,致力于培养卓越的AI算法工程师和研究员。