EasyRL強化學習教程
內容描述
強化學習作為機器學習及人工智能領域的一種重要方法,
在遊戲、自動駕駛、機器人路線規劃等領域得到了廣泛的應用。
本書結合了李宏毅老師的“深度強化學習”、周博磊老師的“強化學習綱要”、
李科澆老師的“世界優選帶你從零實踐強化學習”公開課的精華內容,
在理論嚴謹的基礎上深入淺出地介紹馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、
Sarsa、Q 學習等傳統強化學習算法,以及策略梯度、近端策略優化、深度Q 網絡、
深度確定性策略梯度等常見深度強化學習算法的基本概念和方法,
並以大量生動有趣的例子幫助讀者理解強化學習問題的建模過程以及核心算法的細節。
此外,本書還提供較為全面的習題解答以及Python 代碼實現,可以讓讀者進行端到端、
從理論到輕鬆實踐的全生態學習,充分掌握強化學習算法的原理並能進行實戰。
本書適合對強化學習感興趣的讀者閱讀,也可以作為相關課程的配套教材。
作者介紹
王琦
中國科學院大學碩士在讀,Datawhale成員。
主要研究方向為深度學習、數據挖掘。
曾獲中國大學生計算機設計大賽二等獎、亞太地區大學生數學建模競賽 (APMCM)
二等獎和“挑戰杯”競賽江蘇省選拔賽二等獎,發表 SCI/EI 論文3篇。
楊毅遠
清華大學碩士在讀, Datawhale成員。
主要研究方向為時空數據挖掘、智能傳感系統、深度學習。
曾獲全國大學生智能汽車競賽總優選、中國國家獎學金,發表SCI/EI論文7篇,
其中以作者身份在SCI的Q1區、Q2區及中國計算機學會(CCF)A、B類會議中發表論文4篇。
江季
北京大學碩士在讀, Datawhale成員。
主要研究方向為強化學習、機器人。
曾獲大學生電子設計競賽——2018年嵌入式系統專題邀請賽(英特爾杯)一等獎,發表頂會論文1篇、2項。