機器學習實踐指南 基於R語言
內容描述
隨著R語言的流行,從數據中學習比過去更加輕松。本書是通過R語言掌握數據科學技能的快速入門指南,書中一步一步地介紹如何在免費和流行的R統計包中建立每一種類型的模型。書中的案例描述得很清楚,幾乎所有的代碼都可以使用。讀完本書,讀者將可以在自己專註的某個領域把書中所介紹的技術付諸實踐。
本書適合數據科學入門的讀者閱讀,尤其是通過R語言實現數據建模和分析方法的讀者學習。
目錄大綱
- 1章簡明學習問題… ……………………………………………………1
1.1歸納推理和演繹推理的基礎…………………………………… ………………2
1.2你曾遇到這些事情嗎?…………………………………………………………3
1.3釋放歸納的力量………………………………………………………… ………3
1.4推斷的陰陽之道…………………………………………………………………4
1.5學習問題的三大要素………………… …………………………………………4
1.6從數據中學習的目標……………………………………………………………6
1.7闡明選擇標準……………………………………………………………………7
1.8學習任務的選擇………………………………………… ………………………8
附註………………………………………………………………………………………9 - 2章監督學習………………………………………………………13
2.1有效分類的基本要素………………………………………………………… …13
2.2如何確定假設類 的答案………………………………………………………15
2.3監督學習的兩個核心方法……………………………………………… ………16
2.3.1生成算法的關鍵…………………………………………………………16
2.3.2理解判別算法………………………… …………………………………17
2.4什麼是貝葉斯分類器……………………………………………………………17
誤差下界………………………………………… ………………………………19
2.5評估貝葉斯誤差的兩種簡單技巧………………………………………………19
2.5.1 Mahalanobis技巧…… ………………………………………………19
2.5.2 Bhattacharyya技巧…………………………………………………20
2.6如何釋放樸素貝葉斯分類器的力量……………………………………………21
一個建立直覺的例子………………………………………………………… …22
2.7樸素貝葉斯分類器的R極簡建立方法…………………………………………24
2.7.1一個模擬的例子… ………………………… ………………………………24
2.7.2甲狀腺數據的分析………………………………………………………28
2.8如何利用k-近鄰算 法的價值…………………………………………………33
2.8.1深化理解的例子…………………………………………………… ……34
2.8.2 k近鄰的R直接方法……………………………………………………37
2.8.3如何決定k的優值………………… …………………………………42
2.9線性判別分析的關鍵……………………………………………………………42
2.9.1求解廣義特徵值問題…………………………………………………44
2.9.2 R判別分析的基本要素…………………………………………………45
2.9.3檢查你想要的模型類型…………………………… …………………49
2.9.4不要止步於線性判別分析………………………………………………50
2.10邏輯回歸分類的秘密…………………… ………………………………………51
建立R邏輯回歸分類器的簡便方法……………………………………………53
2.11激勵創意和激情的超級好主意…………………………………………………57
附註……………………………………………………………………… ………………59
第3章無監督學習……………………………………………………68
3.1無監督學習簡介…………………………… ……………………………………68
3.2兩種核心方法及其工作原理……………………………………………………69
3.3無監督學 習的應用技術及R實現………………………………………………70
3.4無監督學習的典型例子,你可以模仿學習……………………………… ……85
3.4.1數據(圖像)預處理……………………………………………………86
3.4.2處理圖像中的噪聲……………………… ………………………………86
3.4.3顱骨“剝離”……………………………………………………………87
3.4.4完美組合… ………………………………………………………………87
附註……………………………………………………………… ……………………89
第4章半監督學習……………………………………………………91
4.1未標記數據的作用…………………………………………… …………………92
4.2一致性假設……………………………………………………………………94
4.3嘗試半監督學習的極簡方法…… ……………………………………………94
4.4自學習算法………………………………………………………………………95
4.5基於半監督模型的R學習……………………………………………………98
4.6使用土地分類掌握這種實踐說明… …………………………… ………………102
附註……………………………………………………………………………………105
第5章統計學習理論……… …………………………………………108
5.1 Vapnik-Chervonenkis泛化界……………………………………………109
5.2什麼是Vapnik-Chervonen kis維…………………………………………110
5.3結構風險小化的關鍵………………………………………………………113
5.4實踐中使用統計學習理論的*佳建議………………………………………114
5.5如何精通支持向量機……………………………………………… …………115
5.6支持向量機的本質……………………………………………………………116
鬆弛的處理……………………………… ……………………………………117
5.7如何建立R支持向量機………………………………………………………118
附註…………………………………………………… ………………………………120
第6章模型選擇………………………………………………………122
6.1模型的快速改進…………… …………………………………………………122
6.2一個價值500萬美元的小錯誤………………………………………………124
6.3 “天下沒有免費午餐”定理之三大關鍵教訓…………………………………125
6.4什麼是偏差和方差權衡……………………………………………… ………127
6.4.1可約誤差………………………………………………………………128
6.4.2偏差…………………………… ………………………………………129
6.4.3方差……………………………………………………………………130
6.5你的模型犯過這 種錯嗎?……………………………………………………131
6.6留出技術的秘密…………………………………………………………… …132
6.7有效交叉驗證的藝術…………………………………………………………134
6.7.1 k-折交叉驗證…………………………… …………………………134
6.7.2一個R案例……………………………………………………………135
6.7.3留一驗證……… ………………………………………………………138
附註……………………………………………………………………… ……………140
恭喜你!……………………………………………………………………142
作者介紹
作者:[英]尼格爾·劉易斯(ND Lewis)譯者:高蓉李茂
尼格爾.劉易斯(ND Lewis)是一位數據科學和預測領域的講師、作者和研究者。他在華爾街和倫敦從事投資管理工作多年,編著了統計、數據科學和量化模型方面的數本圖書,並且在大學裡開設深度學習、機器學習和數據分析應用等方面的課程。