預測分析與數據挖掘 RapidMiner 實現 (Predictive Analytics and Data Mining: Concepts and Practice with RapidMiner)
內容描述
《預測分析與數據挖掘 RapidMiner實現》旨在幫助讀者理解數據挖掘方法的基礎知識,並實現無需編寫代碼就能在自己的工作中實踐這些方法。書中圍繞分類、回歸、關聯分析、聚類、異常檢測、文本挖掘、時間序列預測、特徵分析等數據挖掘問題,著重介紹了決策樹、k近鄰、人工神經網絡、線性回歸、k均值聚類等當今廣泛使用的二十多種算法,針對每一種算法都先以通俗的語言解釋其原理,再使用開源數據分析工具 RapidMiner加以實現。
《預測分析與數據挖掘 RapidMiner實現》適合在日常工作中大量接觸數據的分析師、金融專家、市場營銷人員、商務專業人士等閱讀。
目錄大綱
第1章引言1
1.1什麼是數據挖掘2
1.1.1有意義模式的提取2
1.1.2代表性模型的構建2
1.1.3統計、機器學習和計算的搭配3
1.1.4算法4
1.2對數據挖掘的誤解4
1.3數據挖掘的初衷5
1.3.1海量數據5
1.3.2多維6
1.3.3複雜問題6
1.4數據挖掘的種類7
1.5數據挖掘的算法8
1.6後續章節導覽9
1.6.1數據挖掘的序曲9
1.6.2小插曲10
1.6.3主要內容:預測分析和數據挖掘算法10
1.6.4特別應用12
參考文獻13
第2章數據挖掘流程14
2.1先驗知識16
2.1.1目標16
2.1.2研究問題的背景17
2.1.3數據17
2.1.4因果性與相關性18
2.2數據準備19
2.2.1數據探索19
2.2.2數據質量20
2.2.3缺失值20
2.2.4數據類型和轉換20
2.2.5數據轉換21
2.2.6離群點21
2.2.7特徵選擇21
2.2.8數據採樣22
2.3建模22
2.3.1訓練集和測試集23
2.3.2建模算法24
2.3.3模型評估25
2.3.4集成建模26
2.4應用27
2.4.1生產準備27
2.4.2方法整合27
2.4.3響應時間28
2.4.4重構模型28
2.4.5知識融合28
2.5新舊知識29
2.6後續章節預告29
參考文獻29
第3章數據探索31
3.1數據探索的目標31
3.2走進數據32
3.3描述性統計分析34
3.3.1單變量探索35
3.3.2多變量探索36
3.4數據可視化39
3.4.1一個維度內數據頻率分佈的可視化39
3.4.2直角坐標系內多變量的可視化43
3.4.3高維數據通過投影的可視化48
3.5數據探索導覽50
參考文獻51
第4章分類52
4.1決策樹52
4.1.1算法原理53
4.1.2算法實現59
4.1.3小結71
4.2規則歸納72
4.2.1建立規則方法73
4.2.2算法原理74
4.2.3算法實現77
4.2.4小結81
4.3 k近鄰算法81
4.3.1算法原理82
4.3.2算法實現88
4.3.3小結91
4.4樸素貝葉斯91
4.4.1算法原理93
4.4.2算法實現100
4.4.3小結102
4.5人工神經網絡102
4.5 .1算法原理105
4.5.2算法實現108
4.5.3小結110
4.6支持向量機111
4.6.1概念和術語111
4.6.2算法原理114
4.6.3算法實現116
4.6.4小結122
4.7集成學習模型122
4.7.1集體的智慧123
4.7.2算法原理124
4.7.3算法實現126
4.7.4小結134
參考文獻134
第5章回歸方法137
5.1線性回歸139
5.1.1算法原理139
5.1.2使用RapidMiner實戰的目標與數據141
5.1.3算法實現142
5.1.4線性回歸建模要點148
5.2 Logistic回歸149
5.2.1快速入門Logistic回歸150
5.2.2模型原理151
5.2.3模型實現155
5.2.4 Logistic回歸小結158
5.3總結158
參考文獻158
第6章關聯分析160
6.1挖掘關聯規則的基本概念161
6.1.1項集162
6.1 .2生成關聯規則的一般步驟164
6.2 Apriori算法166
6.2.1使用Apriori算法找出高頻項集167
6.2.2生成關聯規則169
6.3 FP-Growth算法169
6.3.1生成FP樹170
6.3.2高頻項集的生成172
6.3.3 FP-Growth算法實現173
6.4總結176
參考文獻176
第7章聚類178
7.1聚類方法的種類179
7.2 k均值聚類182
7.2.1 k均值聚類原理183
7.2.2算法實現187
7.3 DBSCAN聚類191
7.3.1算法原理192
7.3.2算法實現195
7.3.3小結197
7.4 SOM 197
7.4.1算法原理199
7.4.2算法實現202
7.4.3小結208
參考文獻208
第8章模型評估210
8.1混淆矩陣210
8.2 ROC曲線和AUC 212
8.3提升曲線214
8.4評估預測結果217
8.5總結221
參考文獻221
第9章文本挖掘222
9.1文本挖掘算法的原理223
9.1.1 TF-IDF 223
9.1.2術語和概念225
9.2使用聚類和分類算法實現文本挖掘229
9.2.1實例1:關鍵詞聚類229
9.2.2實例2:預測博客作者的性別232
9.3總結241
參考文獻242
第10章時間序列預測243
10.1基於數據的時序分析245
10.1.1樸素預測法245
10.1.2簡單平均法246
10.1.3移動平均法246
10.1.4加權移動平均法247
10.1.5指數平滑法247
10.1.6 Holt雙參數指數平滑法. . 248
10.1. 7 Holt-Winter三參數指數平滑法249
10.2基於模型的預測方法250
10.2.1線性回歸251
10.2.2多項式回歸252
10.2.3考慮季節性的線性回歸模型252
10.2.4自回歸模型與ARIMA 254
10.2 .5基於RapidMiner的實現254
10.3總結261
參考文獻261
第11章異常檢測262
11.1異常檢測的基本概念262
11.1.1出現離群點的原因262
11.1.2異常檢測的方法264
11.2基於距離的離群點檢測方法266
11.2.1方法原理267
11.2.2方法實現268
11.3基於密度的離群點檢測方法270
11.3.1方法原理270
11.3.2方法實現271
11.4局部離群因子272
11.5總結274
參考文獻275
第12章特徵選擇276
12.1特徵選擇方法概覽276
12.2主成分分析278
12.2.1算法原理279
12.2.2算法實現280
12.3以信息論為基礎對數值型數據進行篩選284
12.4以卡方檢驗為基礎對類別型數據進行篩選286
12.5基於封裝器的特徵選擇289
12.5.1向後消除法以縮減數據集大小290
12.5.2哪些變量被消除了292
12.6總結293
參考文獻294
第13章RapidMiner入門295
13.1用戶操作界面以及介紹295
13.1.1圖形用戶操作界面的介紹295
13.1.2 RapidMiner軟件的術語296
13.2數據導入和導出工具299
13.3數據可視化工具302
13.3.1單一變量可視化304
13.3.2二維數據可視化304
13.3.3多維數據可視化304
13.4數據轉換工具305
13.5數據抽樣與處理缺失值工具309
13.6優化工具312
13.7總結317
參考文獻317
數據挖掘算法的比較319
作者介紹
作者:[美]瓦杰·考圖(Vijay Kotu)巴拉·達什潘德(Bala Deshpande)譯者:嚴云
Vijay Kotu,Yahoo分析總監,負責線上業務的大數據與分析系統的實現,在預測分析領域有十餘年工作經驗。ACM會員,美國質量協會認證的六西格瑪黑帶。
Bala Deshpande,業界知名數據分析應用開發與諮詢公司SimaFore創始人,20餘年分析經驗,精通各類分析技巧,經常在其博客www.simafore.com/blog上分享數據挖掘與預測分析方面的心得。