R語言機器學習(原書第2版)
內容描述
本書是介紹機器學習技術的綜合指南,
從基礎的統計學原理和R語言編程知識,
到核心的機器學習理論和算法分析,
以及機器學習模型的評估和改進方法,
再到機器學習技術在大數據平臺上的應用,
書中都有詳細介紹。
目錄大綱
譯者序
前言
第1章機器學習和R語言入門1
1.1了解發展歷程1
1.1.1統計學習2
1.1.2機器學習2
1.1.3人工智能3
1.1.4數據挖掘3
1.1.5數據科學4
1.2概率與統計5
1.2.1計數和概率的定義5
1.2.2事件和關係7
1.2.3隨機性、概率和分佈9
1.2.4置信區間和假設檢驗9
1.3 R語言入門13
1.3.1基本組成部分13
1.3.2 R語言的數據結構14
1.3.3子集處理15
1.3.4函數和Apply系列17
1.4機器學習過程工作流19
1.4.1計劃20
1.4.2探索20
1.4.3構建20
1.4.4評估20
1.5其他技術21
1.6小結21
第2章數據準備和探索22
2.1規劃數據收集23
2.1.1變量類型23
2.1.2數據格式24
2.1.3數據源的類型29
2.2初始數據分析30
2.2.1初步印象30
2.2.2把多個數據源組織到一起32
2.2.3整理數據34
2.2.4補充更多信息37
2.2.5重塑38
2.3探索性數據分析38
2.3.1摘要統計量39
2.3.2矩42
2.4案例研究:信用卡欺詐46
2.4.1數據導入46
2.4.2數據變換47
2.4.3數據探索48
2.5小結50
第3章抽樣與重抽樣技術51
3.1介紹抽樣技術51
3.2抽樣的術語52
3.2.1樣本52
3.2.2抽樣分佈52
3.2.3總群體的均值和方差53
3.2.4樣本均值和方差53
3.2.5匯總的均值和方差53
3.2.6抽樣點53
3.2.7抽樣誤差54
3.2.8抽樣率54
3.2.9抽樣偏誤54
3.2. 10無放回的抽樣54
3.2.11有放回的抽樣55
3.3信用卡欺詐:總群體的統計量55
3.3.1數據描述55
3.3.2總群體的均值56
3.3.3總群體的方差56
3.3. 4匯總的均值和方差56
3.4抽樣在業務上的意義59
3.5概率和非概率抽樣60
3.6關於抽樣分佈的統計理論61
3.6.1大數定律62
3.6.2中心極限定理64
3.7概率抽樣技術67
3.7.1總群體的統計量67
3.7.2簡單隨機抽樣70
3.7.3系統性隨機抽樣75
3.7.4分層隨機抽樣78
3.7.5聚類抽樣83
3.7.6自助抽樣88
3.8蒙特卡羅方法:接受-拒絕93
3.9小結95
第4章R語言裡的數據可視化96
4.1 ggplot2組件包簡介97
4.2世界經濟發展指標97
4.3折線圖97
4.4堆疊柱狀圖102
4.5散點圖106
4.6箱形圖107
4.7直方圖和密度圖109
4.8餅圖113
4.9相關圖114
4.10熱點圖116
4.11氣泡圖117
4.12瀑布圖120
4.13系統樹圖122
4.14關鍵字云124
4.15桑基圖126
4.16時間序列圖127
4.17隊列圖129
4.18空間圖130
4.19小結133
第5章特徵工程135
5.1特徵工程簡介135
5.2了解工作數據136
5.2.1數據摘要137
5.2.2因變量的屬性137
5.2.3特徵的可用性:連續型或
分類型140
5.2.4設置數據的假設141
5.3特徵排名141
5.4變量子集的選擇144
5.4.1過濾器方法145
5.4.2包裝器方法148
5.4.3嵌入式方法154
5.5主成分分析158
5.6小結161
第6章機器學習理論和實踐162
6.1機器學習的類型163
6.1.1有監督學習164
6.1.2無監督學習164
6.1.3半監督學習165
6.1.4強化學習165
6.2機器學習算法的類別165
6.3實際環境的數據集168
6.3.1房產售價168
6.3. 2購買偏好169
6.3.3 Twitter訂閱和文章169
6.3.4乳腺癌170
6.3.5購物籃170
6.3.6亞馬遜美食評論170
6.4回歸分析171
6.5相關分析172
6.5.1線性回歸174
6.5.2簡單線性回歸175
6.5.3多元線性回歸177
6.5.4模型診斷:線性回歸180
6.5.5多項回歸190
6.5.6邏輯回歸193
6.5.7 logit變換194
6.5.8機率比194
6.5.9模型診斷:邏輯回歸200
6.5.10多項邏輯回歸208
6.5.11廣義線性模型211
6.5.12結論212
6.6支持向量機213
6.6.1線性SVM214
6.6.2二元SVM分類模型214
6.6.3多類別SVM216
6.6.4結論217
6.7決策樹217
6.7.1決策樹的類型218
6.7.2決策指標219
6.7.3決策樹學習方法221
6.7.4集成樹235
6.7.5結論241
6.8樸素貝葉斯方法241
6.8.1條件概率241
6.8.2貝葉斯定理241
6.8.3先驗概率242
6.8.4後驗概率242
6.8.5似然和邊際似然242
6.8.6樸素貝葉斯方法243
6.8.7結論247
6.9聚類分析247
6.9.1聚類方法簡介248
6.9.2聚類算法248
6.9.3內部評估256
6.9.4外部評估257
6.9.5結論259
6.10關聯規則挖掘259
6.10.1關聯概念簡介259
6.10.2規則挖掘算法261
6.10.3推薦算法267
6.10 .4結論273
6.11人工神經網絡273
6.11.1人類認知學習273
6.11.2感知器275
6.11.3 Sigmoid神經元276
6.11.4神經網絡的體系架構277
6.11.5有監督與無監督的神經網絡278
6.11.6神經網絡的學習算法279
6.11.7前饋反向傳播281
6.11.8結論286
6.12文本挖掘方法286
6.12.1文本挖掘簡介287
6.12.2文本摘要288
6.12.3 TF-IDF289
6.12. 4詞性標註291
6.12.5關鍵字云295
6.12.6文本分析:Microsoft Cognitive Services295
6.12.7結論304
6.13在線機器學習算法304
6.13.1模糊C均值聚類305
作者介紹
卡西克·拉瑪蘇布蘭馬尼安(Karthik Ramasubramanian)
就職於印度創業技術公司Hike Messenger。
他一直為零售、電子商務和技術行業解決跨行業的數據科學問題,
開發數據驅動的解決方案並進行原型構建。
Karthik對整個數據科學生命週期
(從探索數據問題,到創建數據科學模型,以及開發各行業相關產品)
都具有豐富的經驗。
阿布舍克·辛格( Abhishek Singh)
領導的數據科學專業團隊正在解決糧食安全、網絡安全、
自然災害、醫療保健以及更多領域的緊迫問題。
他對美國銀行的資產進行了壓力測試,開發了保險定價模型,
並優化了客戶的電信體驗。他積極參與數據科學分析相關的思......