機器學習實踐(測試驅動的開發方法)

機器學習實踐(測試驅動的開發方法)

作者: 柯克(Matthew Kirk)
出版社: 人民郵電
出版在: 2015-08-01
ISBN-13: 9787115396181
ISBN-10: 7115396183
總頁數: 188 頁





內容描述


<內容簡介>
《機器學習實踐:測試驅動的開發方法》面技術開發人員、CTO和咨詢顧問人員,介紹了機器學習的基本原理,涵蓋了測試驅動的機器學習、機器學習概述、K近鄰分類、樸素貝葉斯分類、隱馬爾科夫模型、支持向量機、神經網絡、聚類、核嶺回歸、模型改進與數據提取等內容。  

<章節目錄>
目錄
前言 xi
第1章 測試驅動的機器學習 1
1.1 TDD的歷史 2
1.2 TDD與科學方法 2
1.2.1 TDD可構建有效的邏輯命題 3
1.2.2 TDD要求你將假設以文字或代碼的形式記錄下來 5
1.2.3 TDD和科學方法的閉環反饋機制 5
1.3 機器學習中的風險 5
1.3.1 數據的不穩定性 6
1.3.2 欠擬合 6
1.3.3 過擬合 7
1.3.4 未來的不可預測性 8
1.4 為降低風險應採用的測試 8
1.4.1 利用接縫測試減少數據中的不穩定因素 8
1.4.2 通過交叉驗證檢驗擬合效果 9
1.4.3 通過測試訓練速度降低過擬合風險 10
1.4.4 檢測未來的精度和查全率漂移情況 11
1.5 小結 11
第2章 機器學習概述 13
2.1 什麽是機器學習 13
2.1.1 有監督學習 13
2.1.2 無監督學習 14
2.1.3 強化學習 15
2.2 機器學習可完成的任務 15
2.3 本書採用的數學符號 16
2.4 小結 16
第3章 K 近鄰分類 17
3.1 K近鄰分類的歷史 18
3.2 基於鄰居的居住幸福度 18
3.3 如何選擇K 21
3.3.1 猜測K的值 21
3.3.2 選擇K的啟發式策略 21
3.3.3 K的選擇算法 24
3.4 何謂“近” 24
3.4.1 Minkowski距離 25
3.4.2 Mahalanobis距離 26
3.5 各類別的確定 27
3.6 利用KNN算法和OpenCV實現胡須和眼鏡的檢測 29
3.6.1 類圖 29
3.6.2 從原始圖像到人臉圖像 30
3.6.3 Face類 33
3.6.4 Neighborhood類 36
3.7 小結 43
第4章 樸素貝葉斯分類 45
4.1 利用貝葉斯定理找出欺詐性訂單 45
4.1.1 條件概率 46
4.1.2 逆條件概率 47
4.2 樸素貝葉斯分類器 48
4.2.1 鏈式法則 48
4.2.2 貝葉斯推理中的樸素性49
4.2.3 偽計數 50
4.3 垃圾郵件過濾器 51
4.3.1 類圖 51
4.3.2 數據源 52
4.3.3 Email類 52
4.3.4 符號化與上下文 55
4.3.5 SpamTrainer類 56
4.3.6 通過交叉驗證將錯誤率最小化 63
4.4 小結 66
第5章 隱馬爾可夫模型 67
5.1 利用狀態機跟蹤用戶行為 67
5.1.1 隱含狀態的輸出和觀測 69
5.1.2 利用馬爾可夫假設簡化問題 70
5.1.3 利用馬爾可夫鏈而非有限狀態機 71
5.1.4 隱馬爾可夫模型 71
5.2 評估:前向-後向算法 72
5.3 利用維特比算法求解解碼問題 75
5.4 學習問題 76
5.5 利用布朗語料庫進行詞性標註 76
5.5.1 詞性標註器的首要問題:CorpusParser 77
5.5.2 編寫詞性標註器 79
5.5.3 通過交叉驗證獲取模型的置信度 86
5.5.4 模型的改進方案 88
5.6 小結 88
第6章 支持向量機 89
6.1 求解忠誠度映射問題 89
6.2 SVM的推導過程 91
6.3 非線性數據 92
6.3.1 核技巧 92
6.3.2 軟間隔 96
6.4 利用SVM進行情緒分析 97
6.4.1 類圖 98
6.4.2 Corpus類 99
6.4.3 從語料庫返回一個無重覆元素的單詞集 102
6.4.4 CorpusSet類 103
6.4.5 SentimentClassifier類 107
6.4.6 隨時間提升結果 111
6.5 小結 111
第7章 神經網絡 113
7.1 神經網絡的歷史 113
7.2 何為人工神經網絡 114
7.2.1 輸入層 115
7.2.2 隱含層 116
7.2.3 神經元 117
7.2.4 輸出層 122
7.2.5 訓練算法 122
7.3 構建神經網絡 125
7.3.1 隱含層數目的選擇 126
7.3.2 每層中神經元數目的選擇 126
7.3.3 誤差容限和最大epoch的選擇 126
7.4 利用神經網絡對語言分類 127
7.4.1 為語言編寫接縫測試 129
7.4.2 網絡類的交叉驗證 132
7.4.3 神經網絡的參數調校 135
7.4.4 收斂性測試 136
7.4.5 神經網絡的精度和查全率 136
7.4.6 案例總結 136
7.5 小結 136
第8章 聚類 137
8.1 用戶組 138
8.2 K均值聚類 139
8.2.1 K均值算法 139
8.2.2 K均值聚類的缺陷 140
8.3 EM聚類算法 141
8.4 不可能性定理 142
8.5 音樂歸類 142
8.5.1 數據收集 143
8.5.2 用K均值聚類分析數據 144
8.5.3 EM聚類 146
8.5.4 爵士樂的EM聚類結果 149
8.6 小結 151
第9章 核嶺回歸 153
9.1 協同過濾 153
9.2 應用於協同過濾的線性回歸 154
9.3 正則化技術與嶺回歸 157
9.4 核嶺回歸 158
9.5 理論總結 158
9.6 用協同過濾推薦啤酒風格 159
9.6.1 數據集 159
9.6.2 我們所需的工具 159
9.6.3 評論者 162
9.6.4 編寫代碼確定某人的偏好 164
9.6.5 利用用戶偏好實現協同過濾 166
9.7 小結 167
第10章 模型改進與數據提取 169
10.1 維數災難問題 169
10.2 特徵選擇 171
10.3 特徵變換 173
10.4 主分量分析 175
10.5 獨立分量分析 177
10.6 監測機器學習算法 179
10.6.1 精度與查全率:垃圾郵件過濾 179
10.6.2 混淆矩陣 181
10.7 均方誤差 182
10.8 產品環境的覆雜性 183
10.9 小結 183
第11章 結語 185
11.1 機器學習算法回顧 185
11.2 如何利用這些信息來求解問題 186
11.3 未來的學習路線 187
作者介紹 188
封面介紹 188




相關書籍

金融人才 × 機器學習聯手出擊:專為 FinTech 領域打造的機器學習指南 (Machine Learning for Finance)

作者 Jannes Klaas 彭勝陽 譯

2015-08-01

Python 機器學習實踐指南 (Python Machine Learning Blueprints)

作者 庫姆斯 (Alexander T.Combs)

2015-08-01

公職考試講重點【資料處理(含資料處理概要)】三、四等

作者 張逸

2015-08-01