機器學習基礎——面向預測數據分析的算法、實用範例與案例研究
內容描述
本書重點講述用於預測性數據分析的*重要的機器學習方法,包括理論概念和實際應用。
目錄大綱
譯者序
前言
符號記法
第1章面向預測數據分析的機器學習1
1.1什麼是預測數據分析1
1.2什麼是機器學習2
1.3機器學習的工作原理4
1.4機器學習會產生什麼問題7
1.5預測數據分析項目的生命週期:CRISP-DM 9
1.6預測數據分析工具10
1.7本書概覽11
1.8習題12
第2章數據到見解再到決策13
2.1將商業問題轉化為分析解決方案13
2.2可行性評估14
2.3設計分析基礎表16
2.4特徵的設計與實現19
2.4.1不同的數據類型20
2.4.2不同的特徵類型20
2.4.3處理時間21
2.4.4法律問題23
2.4.5特徵的實現25
2.4.6案例研究:汽車保險詐騙25
2.5總結28
2.6延伸閱讀28
2.7習題29
第3章數據探索31
3.1數據質量報告31
3.2了解數據35
3.2.1正態分佈37
3.2.2案例研究:汽車保險詐騙38
3.3找出數據質量問題39
3.3.1缺失值39
3.3.2異常基數40
3.3.3離群點40
3.3.4案例研究:汽車保險詐騙41
3.4處理數據質量問題42
3.4.1處理缺失值43
3.4.2處理離群點43
3.4.3案例研究:汽車保險詐騙44
3.5高階數據探索45
3.5.1可視化特徵之間的關係45
3.5.2度量協方差和相關性52
3.6數據準備56
3.6.1歸一化56
3.6.2分箱57
3.6.3採樣60
3.7總結61
3.8延伸閱讀62
3.9習題62
第4章基於信息的學習73
4.1大思路73
4.2基礎知識75
4.2.1決策樹75
4.2.2香農熵模型77
4.2.3信息增益80
4.3標準方法:ID3算法83
4.4延伸與拓展89
4.4.1其他特徵選取與純度度量方法89
4.4.2處理連續描述性特徵92
4.4.3預測連續目標95
4.4.4剪枝98
4.4.5模型組合100
4.5總結103
4.6延伸閱讀104
4.7習題104
第5章基於相似性的學習109
5.1大思路109
5.2基本概念110
5.2.1特徵空間110
5.2.2用距離度量測量相似性111
5.3標準方法:最近鄰算法113
5.4延伸與拓展116
5.4.1處理嘈雜數據116
5.4.2高效內存搜索118
5.4. 3數據歸一化124
5.4.4預測連續目標127
5.4.5其他相似性測量129
5.4.6特徵選取136
5.5總結141
5.6延伸閱讀143
5.7後記144
5.8習題144
第6章基於概率的學習149
6.1大思路149
6.2基礎知識151
6.2.1貝葉斯定理152
6.2.2貝葉斯預測154
6.2.3條件獨立與因子化157
6.3標準方法:樸素貝葉斯模型160
6.4延伸與拓展163
6.4.1平滑163
6.4.2連續特徵:概率密度函數166
6.4.3連續特徵:分箱174
6.4. 4貝葉斯網絡177
6.5總結187
6.6延伸閱讀188
6.7習題188
第7章基於誤差的學習192
7.1大思路192
7.2基礎知識192
7.2.1簡單線性回歸193
7.2.2測量誤差194
7.2.3誤差曲面196
7.3標準方法:使用梯度下降法的多變量線性回歸197
7.3.1多變量線性回歸198
7.3.2梯度下降法198
7.3.3選擇學習率和初始權值203
7.3.4實用範例204
7.4延伸與拓展206
7.4.1解釋多變量線性回歸模型206
7.4.2用權值衰減設定學習率208
7.4.3處理類別描述性特徵209
7.4.4處理類別目標特徵:對數機率回歸210
7.4.5建模非線性關係219
7.4.6多項對數機率回歸223
7.4.7支持向量機226
7.5總結229
7.6延伸閱讀231
7.7習題231
第8章評估237
8.1大思路237
8.2基礎知識238
8.3標準方法:留出測試集上的誤分類率238
8.4延伸與拓展241
8.4.1設計評估實驗241
8.4.2性能度量:類別目標246
8.4.3性能度量:預測得分252
8.4.4性能度量:多項目標264
8.4.5性能度量:連續目標265
8.4.6評估部署後的模型268
8.5總結273
8.6延伸閱讀273
8.7習題274
第9章案例研究:客戶流失278
9.1商業理解278
9.2數據理解280
9.3數據準備283
9.4建模286
9.5評估289
9.6部署290
第10章案例研究:星系分類292
10.1商業理解292
10.2數據理解294
10.3數據準備299
10.4建模303
10.4.1基準模型303
10.4.2特徵選取305
10.4.3 5級別模型306
10.5評估307
10.6部署308
第11章面向預測數據分析的機器學習藝術309
11.1預測模型的不同視角310
11.2選擇機器學習方法313
11.2.1將機器學習方法和項目匹配315
11.2.2將機器學習方法和數據匹配315
11.3總結316
附錄A機器學習的描述性統計量與數據可視化317
附錄B機器學習的概率論導論326
附錄C機器學習中的求導方法332
參考文獻336
索引343