精通機器學習 基於R 第2版

精通機器學習 基於R 第2版

作者: [美]考瑞·萊斯米斯特爾
出版社: 人民郵電
出版在: 2018-03-01
ISBN-13: 9787115477781
ISBN-10: 7115477787
裝訂格式: 平裝
總頁數: 291 頁





內容描述


機器學習是近年來的熱門技術話題,R語言是處理其中大量數據的有力工具。本書為讀者提供機器學習和R語言的堅實算法基礎和業務基礎,內容包括機器學習基本概念、線性回歸、邏輯回歸和判別分析、線性模型的高 級選擇特性、K* 近鄰和支持向量機等,力圖平衡實踐中的技術和理論兩方面。
本書適合試圖理解和表述機器學習算法的IT人士、想在分析中發揮R強大威力的統計學專家。即使是同時精通IT技術和統計學的讀者,在本書中仍然可以發現一些有用的竅門和技巧。


目錄大綱


第1章成功之路1 
1.1流程1 
1.2業務理解2 
1.2.1確定業務目標3 
1.2.2現狀評估4 
1.2.3確定分析目標4 
1.2.4建立項目計劃4 
1.3數據理解4 
1.4數據準備5 
1.5建模5 
1.6評價6 
1.7部署6 
1.8算法流程圖7 
1.9小結10 
第2章線性回歸:機器學習基礎技術11 
2.1單變量回歸11 
2.2多變量線性回歸18 
2.2.1業務理解18 
2.2.2數據理解和數據準備18 
2.2.3模型構建與模型評價21 
2.3線性模型中的其他問題30 
2.3.1定性特徵30 
2.3.2交互項32 
2.4小結34 
第3章邏輯斯蒂回歸與判別分析35 
3.1分類方法與線性回歸35 
3.2邏輯斯蒂回歸36 
3.2.1業務理解36 
3.2.2數據理解和數據準備37 
3.2.3模型構建與模型評價41 
3.3判別分析概述46
3.4多元自適應回歸樣條方法50 
3.5模型選擇54 
3.6小結57 
第4章線性模型中的高級特徵選擇技術58 
4.1正則化簡介58 
4.1.1嶺回歸59 
4.1.2 LASSO 59 
4.1.3彈性網絡60 
4.2商業案例60 
4.2.1業務理解60 
4.2.2數據理解和數據準備60 
4.3模型構建與模型評價65 
4.3.1 優子集65 
4.3.2嶺回歸68 
4.3.3 LASSO 71 
4.3.4彈性網絡73 
4.3.5使用glmnet進行交叉驗證76 
4.4模型選擇78 
4.5正則化與分類問題78 
4.6小結81 
第5章更多分類技術:K-
近鄰與
支持向量機82 
5.1 K-*近鄰82 
5.2支持向量機84 
5.3商業案例86 
5.3.1業務理解86 
5.3.2數據理解和數據準備87 
5.3.3模型構建與模型評價92 
5.3.4模型選擇98 
5.4 SVM中的特徵選擇100 
5.5小結101 
第6章分類回歸樹103
6.1本章技術概述103 
6.1.1回歸樹104 
6.1.2分類樹104 
6.1.3隨機森林105 
6.1.4梯度提升106 
6.2商業案例106 
6.2.1模型構建與模型評價107 
6.2.2模型選擇121 
6.2. 3使用隨機森林進行特徵選擇121 
6.3小結123 
第7章神經網絡與深度學習124 
7.1神經網絡介紹124 
7.2深度學習簡介128 
深度學習資源與高級方法130 
7.3業務理解131 
7.4數據理解和數據準備132 
7.5模型構建與模型評價136 
7.6深度學習示例139 
7.6.1 H2O背景介紹139 
7.6.2將數據上載到H2O平台140 
7.6.3建立訓練數據集和測試
數據集141 
7.6.4模型構建142 
7.7小結146 
第8章聚類分析147 
8.1層次聚類148 
8.2 K-均值聚類149 
8.3果瓦係數與圍繞中心的劃分150 
8.3.1果瓦係數150 
8.3.2 PAM 151 
8.4隨機森林151
8.5業務理解152 
8.6數據理解與數據準備152 
8.7模型構建與模型評價155 
8.7.1層次聚類155 
8.7.2 K-均值聚類162 
8.7.3果瓦係數和PAM 165 
8.7.4隨機森林與PAM 167 
8.8小結168 
第9章主成分分析169 
9.1主成分簡介170 
9.2業務理解173 
9.3模型構建與模型評價176 
9.3.1主成分抽取176 
9.3.2正交旋轉與解釋177 
9.3.3根據主成分建立因子得分178 
9.3.4回歸分析178 
9.4小結184 
第10章購物籃分析、推薦引擎與
序列分析185 
10.1購物籃分析簡介186 
10.2業務理解187 
10.3數據理解和數據準備187 
10.4模型構建與模型評價189 
10.5推薦引擎簡介192 
10.5.1基於用戶的協同過濾193 
10.5.2基於項目的協同過濾194 
10.5.3奇異值分解和主成分分析194 
10.6推薦系統的業務理解198 
10.7推薦系統的數據理解與數據準備198
10.8推薦系統的建模與評價200 
10.9序列數據分析208 
10.10小結214 
第11章創建集成多類分類215 
11.1集成模型215 
11.2業務理解與數據理解216 
11.3模型評價與模型選擇217 
11.4多類分類219 
11.5業務理解與數據理解220 
11.6模型評價與模型選擇223 
11.6.1隨機森林224 
11.6.2嶺回歸225 
11.7 MLR集成模型226 
11.8小結228 
第12章時間序列與因果關係229 
12.1單變量時間序列分析229 
12.2業務理解235 
12.3模型構建與模型評價240 
12.3.1單變量時間序列預測240 
12.3.2檢查因果關係243 
12.4小結249 
第13章文本挖掘250 
13.1文本挖掘框架與方法250 
13.2主題模型252 
13.3業務理解254 
13.4模型構建與模型評價257 
13.4.1詞頻分析與主題模型257 
13.4.2其他定量分析261 
13.5小結267
第14章在雲上使用R語言268 
14.1創建AWS賬戶269 
14.1.1啟動虛擬機270 
14.1.2啟動Rstudio 272 
14.2小結274 
附錄A R語言基礎275


作者介紹


Cory Leismester 
具有十多年量化管理經驗,目前在銀行業擔任高級量化管理經理,負責構建市場營銷和監管模型。曾在禮來公司任職16年,負責銷售、市場調查、精益六西格瑪、營銷分析、新產品預測等工作。




相關書籍

TensorFlow 人臉識別實戰

作者 王曉華

2018-03-01

Introduction to Numerical Electrostatics Using MATLAB (Hardcover)

作者 Lawrence N. Dworsky

2018-03-01

Pro Power BI Desktop, 2/e

作者 Adam Aspin

2018-03-01