深度強化學習原理與實踐

深度強化學習原理與實踐

作者: 陳仲銘 何明
出版社: 人民郵電
出版在: 2019-05-01
ISBN-13: 9787115505323
ISBN-10: 7115505322





內容描述


本書構建了一個完整的深度強化學習理論和實踐體系:從馬爾可夫決策過程開始,根據價值函數、策略函數求解貝爾曼方程,到利用深度學習模擬價值網絡和策略網絡。書中詳細介紹了深度強化學習相關算法,如Rainbow、Ape-X算法等,並闡述了相關算法的具體實現方式和代表性應用(如AlphaGo)。此外,本書還深度剖析了強化學習各算法之間的聯系,有助於讀者舉一反三。
本書分為四篇:初探強化學習、求解強化學習、求解強化學習進階和深度強化學習。涉及基礎理論到深度強化學習算法框架的各方面內容,反映了深度強化學習領域過去的發展歷程和研究進展,有助於讀者發現該領域中新的研究問題和方向。


目錄大綱


第一篇初探強化學習
--第1章強化學習緒論
--第2章數學基礎及環境
第二篇求解強化學習
--第3章動態規劃法
--第4章蒙特卡洛法
--第5章時間差分法
第三篇求解強化學習進階
--第6章值函數近似法
--第7章策略梯度法
--第8章整合學習與規劃
第四章深度強化學習
--第9章深度強化學習
--第10章深度Q網絡
--第11章深度強化學習算法框架
--第12章從圍棋AlphaGo到AlphaGo Zero


作者介紹


陳仲銘:西安電子科技大學碩士。主要研究方向為強化學習與深度學習、數據挖掘、圖像算法及其應用。曾參與激光點云三維掃描、個性化推薦系統、多傳感器融合系統等大型項目,期間多次獲國家級創新項目獎,並在國內外發表多篇相關論文。此外,作為技術顧問為多家科研和企業機構提供關於數學建模、深度學習等諮詢和培訓。著有《深度學習原理與實踐》一書。
何明:重慶大學學士,中國科學技術大學博士,曾於美國北卡夏洛特分校訪學交流,目前為上海交通大學電子科學與技術方向博士後研究人員、OPPO研究院人工智能算法研究員。主要研究方向為深度強化學習、數據挖掘與知識發現、機器學習方法及其應用,側重於移動端用戶行為分析與建模。在TIP、TWEB、DASFAA、IEEE Access等重要學術會議和期刊共發表論文10餘篇,並獲得過數據挖掘領域國際會議KSEM2018的最佳論文獎。




相關書籍

數據科學概念與實踐(原書第2版)

作者 Vijay Kotu Bala Deshpande 黃智瀕 白鵬譯

2019-05-01

R語言數據分析項目開發實戰

作者 [印]戈皮·薩博拉曼尼 楊崇珉 譯

2019-05-01

Python 技術者們 -- 實踐!帶你一步一腳印由初學到精通, 2/e

作者 施威銘研究室

2019-05-01