精通機器學習 基於R 第2版
內容描述
機器學習是近年來的熱門技術話題,R語言是處理其中大量數據的有力工具。本書為讀者提供機器學習和R語言的堅實算法基礎和業務基礎,內容包括機器學習基本概念、線性回歸、邏輯回歸和判別分析、線性模型的高 級選擇特性、K* 近鄰和支持向量機等,力圖平衡實踐中的技術和理論兩方面。
本書適合試圖理解和表述機器學習算法的IT人士、想在分析中發揮R強大威力的統計學專家。即使是同時精通IT技術和統計學的讀者,在本書中仍然可以發現一些有用的竅門和技巧。
目錄大綱
第1章成功之路1
1.1流程1
1.2業務理解2
1.2.1確定業務目標3
1.2.2現狀評估4
1.2.3確定分析目標4
1.2.4建立項目計劃4
1.3數據理解4
1.4數據準備5
1.5建模5
1.6評價6
1.7部署6
1.8算法流程圖7
1.9小結10
第2章線性回歸:機器學習基礎技術11
2.1單變量回歸11
2.2多變量線性回歸18
2.2.1業務理解18
2.2.2數據理解和數據準備18
2.2.3模型構建與模型評價21
2.3線性模型中的其他問題30
2.3.1定性特徵30
2.3.2交互項32
2.4小結34
第3章邏輯斯蒂回歸與判別分析35
3.1分類方法與線性回歸35
3.2邏輯斯蒂回歸36
3.2.1業務理解36
3.2.2數據理解和數據準備37
3.2.3模型構建與模型評價41
3.3判別分析概述46
3.4多元自適應回歸樣條方法50
3.5模型選擇54
3.6小結57
第4章線性模型中的高級特徵選擇技術58
4.1正則化簡介58
4.1.1嶺回歸59
4.1.2 LASSO 59
4.1.3彈性網絡60
4.2商業案例60
4.2.1業務理解60
4.2.2數據理解和數據準備60
4.3模型構建與模型評價65
4.3.1 優子集65
4.3.2嶺回歸68
4.3.3 LASSO 71
4.3.4彈性網絡73
4.3.5使用glmnet進行交叉驗證76
4.4模型選擇78
4.5正則化與分類問題78
4.6小結81
第5章更多分類技術:K-近鄰與
支持向量機82
5.1 K-*近鄰82
5.2支持向量機84
5.3商業案例86
5.3.1業務理解86
5.3.2數據理解和數據準備87
5.3.3模型構建與模型評價92
5.3.4模型選擇98
5.4 SVM中的特徵選擇100
5.5小結101
第6章分類回歸樹103
6.1本章技術概述103
6.1.1回歸樹104
6.1.2分類樹104
6.1.3隨機森林105
6.1.4梯度提升106
6.2商業案例106
6.2.1模型構建與模型評價107
6.2.2模型選擇121
6.2. 3使用隨機森林進行特徵選擇121
6.3小結123
第7章神經網絡與深度學習124
7.1神經網絡介紹124
7.2深度學習簡介128
深度學習資源與高級方法130
7.3業務理解131
7.4數據理解和數據準備132
7.5模型構建與模型評價136
7.6深度學習示例139
7.6.1 H2O背景介紹139
7.6.2將數據上載到H2O平台140
7.6.3建立訓練數據集和測試
數據集141
7.6.4模型構建142
7.7小結146
第8章聚類分析147
8.1層次聚類148
8.2 K-均值聚類149
8.3果瓦係數與圍繞中心的劃分150
8.3.1果瓦係數150
8.3.2 PAM 151
8.4隨機森林151
8.5業務理解152
8.6數據理解與數據準備152
8.7模型構建與模型評價155
8.7.1層次聚類155
8.7.2 K-均值聚類162
8.7.3果瓦係數和PAM 165
8.7.4隨機森林與PAM 167
8.8小結168
第9章主成分分析169
9.1主成分簡介170
9.2業務理解173
9.3模型構建與模型評價176
9.3.1主成分抽取176
9.3.2正交旋轉與解釋177
9.3.3根據主成分建立因子得分178
9.3.4回歸分析178
9.4小結184
第10章購物籃分析、推薦引擎與
序列分析185
10.1購物籃分析簡介186
10.2業務理解187
10.3數據理解和數據準備187
10.4模型構建與模型評價189
10.5推薦引擎簡介192
10.5.1基於用戶的協同過濾193
10.5.2基於項目的協同過濾194
10.5.3奇異值分解和主成分分析194
10.6推薦系統的業務理解198
10.7推薦系統的數據理解與數據準備198
10.8推薦系統的建模與評價200
10.9序列數據分析208
10.10小結214
第11章創建集成多類分類215
11.1集成模型215
11.2業務理解與數據理解216
11.3模型評價與模型選擇217
11.4多類分類219
11.5業務理解與數據理解220
11.6模型評價與模型選擇223
11.6.1隨機森林224
11.6.2嶺回歸225
11.7 MLR集成模型226
11.8小結228
第12章時間序列與因果關係229
12.1單變量時間序列分析229
12.2業務理解235
12.3模型構建與模型評價240
12.3.1單變量時間序列預測240
12.3.2檢查因果關係243
12.4小結249
第13章文本挖掘250
13.1文本挖掘框架與方法250
13.2主題模型252
13.3業務理解254
13.4模型構建與模型評價257
13.4.1詞頻分析與主題模型257
13.4.2其他定量分析261
13.5小結267
第14章在雲上使用R語言268
14.1創建AWS賬戶269
14.1.1啟動虛擬機270
14.1.2啟動Rstudio 272
14.2小結274
附錄A R語言基礎275
作者介紹
Cory Leismester
具有十多年量化管理經驗,目前在銀行業擔任高級量化管理經理,負責構建市場營銷和監管模型。曾在禮來公司任職16年,負責銷售、市場調查、精益六西格瑪、營銷分析、新產品預測等工作。