機器學習與深度學習算法基礎
內容描述
本書從機器學習的概念與基本原理開始,介紹了機器學習及近年來流行的深度學習領域的經典模型。
閱讀本書可以讓讀者係統地了解機器學習和深度學習領域的基本知識,領會模型算法的思路與策略。
本書分為兩篇,共18章。
第一篇為經典機器學習模型,主要介紹常用的機器學習經典模型,包括線性回歸、支持向量機模型、
邏輯斯蒂回歸、決策樹模型、k近鄰、樸素貝葉斯、線性判別分析和主成分分析、
流形學習、聚類算法、稀疏編碼、直推式支持向量機、集成算法。
第二篇為深度學習模型與方法,剖析神經網絡的基本要素,並介紹常用的深度學習模型,
包括感知機、卷積神經網絡、循環神經網絡、生成對抗網絡。
本書試圖從初學者的角度對機器學習和深度學習的經典算法進行詳細闡述。
本書插圖豐富,語言通俗易懂,適合初入機器學習領域的“萌新”,
也適合希望將機器學習算法應用到日常工作中的其他專業從業者,
還可供對人工智能領域感興趣的讀者參考閱讀。
目錄大綱
第一篇經典機器學習模型
第1章引言:從線性回歸說起2
1.1什麼是機器學習3
1.1.1傳統算法與機器學習算法4
1.1.2線性回歸9
1.2過擬合與正則化10
1.2. 1樣本量與過擬合10
1.2.2正則化方法12
1.3嶺回歸和lasso回歸14
1.3.1嶺回歸14
1.3.2 lasso回歸17
1.3.3 l1正則化和l2正則化17
1.4本章小結與代碼實現21
1.5本章話題:機器學習的一般原理25
第2章陰陽剖分:支持向量機模型30
2.1支持向量機模型的基本思路30
2.1.1支持向量機模型的基本思路31
2.1.2支持向量機算法的基本流程34
2.2數學形式與求解方法34
2.2.1數學知識補充35
2.2.2數學模型與理論推導36
2.3核方法與維度問題38
2.3.1核方法的含義39
2.3.2核函數SVM 39
2.4軟間隔支持向量機41
2.4.1軟間隔的含義41
2.4.2軟間隔SVM的損失函數42
2.5本章小結與代碼實現44
2.6本章話題:高維度,是災難還是契機?46
第3章化直為曲:邏輯斯蒂回歸50
3.1邏輯斯蒂回歸的基本原理50
3.1.1分類問題與回歸問題51
3.1.2邏輯斯蒂回歸算法思路53
3.2邏輯斯蒂函數56
3.2. 1邏輯斯蒂函數的由來56
3.2.2邏輯斯蒂函數的優勢58
3.3邏輯斯蒂回歸的數學原理59
3.3.1邏輯斯蒂回歸的數學形式59
3.3.2準確率和召回率62
3.4參數確定的方法65
3.4.1似然函數簡介65
3.4.2邏輯斯蒂回歸的損失函數66
3.5多項邏輯斯蒂回歸67
3.5.1多分類問題的邏輯斯蒂回歸67
3.5.2 softmax函數68
3.6本章小結與代碼實現69
3.7本章話題:廣義線性模型72
第4章層層拷問:決策樹模型77
4.1模型思路與算法流程78
4.1.1決策樹的思路——以讀心術遊戲為例78
4.1.2決策樹模型的基本流程81
4.1.3決策樹模型的關鍵問題87
4.2特徵選擇原則87
4.2.1信息增益原則87
4.2.2信息增益比原則89
4.2.3基尼係數原則89
4.3剪枝策略90
4.4常用決策樹模型:ID3與C4.5算法92
4.4.1 ID3算法92
4.4.2 C4.5算法92
4.5多變量決策樹簡介93
4.6本章小結與代碼實現94
4.7本章話題:信息論與特徵選擇97
第5章近朱者赤:k近鄰模型101
5.1模型的思路和特點101
5.1.1模型思路101
5.1.2懶惰學習與迫切學習103
5.2模型的相關性質105
5.2 .1數學形式105
5.2.2損失函數與誤差108
5.2.3 k近鄰模型的改進109
5.3距離函數與參數選擇111
5.3.1距離函數111
5.3.2參數選擇的影響114
5.4本章小結與代碼實現115
5.5本章話題:相似性度量119
第6章執果索因:樸素貝葉斯模型123
6.1貝葉斯方法的基本概念123
6.1.1貝葉斯學派與頻率學派124
6.1.2全概率公式與貝葉斯公式127
6.2樸素貝葉斯的原理和方法133
6.2.1樸素貝葉斯的“樸素”假設133
6.2.2拉普拉斯平滑135
6.3樸素貝葉斯算法的步驟與流程137
6.4生成式模型與判別式模型138
6.5本章小結與代碼實現138
6.6本章話題:貝葉斯思維與先驗概念141
第7章提綱挈領:線性判別分析與主成分分析144
7.1線性降維的基本思路144
7.2 LDA 146
7.2.1投影的技巧146
7.2.2類內距離和類間距離147
7.2.3 LDA的求解149
7.3 PCA 151
7.3.1基變換與特徵降維151
7.3.2方差最大化與PCA原理推導154
7.3 .3 PCA的實現步驟158
7.4 LDA與PCA:區別與聯繫158
7.5本章小結與代碼實現159
7.5.1 LDA實驗:鳶尾花數據集降維分類159
7.5.2 PCA實驗:手寫數字數據集降維161
7.6本章話題:矩陣的直觀解釋與應用162
第8章曲面平鋪:流形學習166
8.1流形與流形學習166
8.2 Isomap的基本思路與實現方法170
8.2.1測地距離的概念170
8.2.2計算測地距離:圖論中的Floyd算法172
8.2.3由距離到坐標:多維尺度變換方法173
8.3 Isomap算法步驟175
8.4 LLE的基本思路與實現方法175
8.4.1 LLE的基本思想175
8.4.2局部線性重構176
8.5 LLE算法步驟177
8.6本章小結與代碼實現178
8.7本章話題:黎曼、非歐幾何與流形感知180
第9章物以類聚:聚類算法185
9.1無監督方法概述185
9.2聚類的基本目標和評價標準187
9.2.1聚類的基本目標187
9.2.2聚類的評價標準188
9.3基於中心的k-means算法191
9.3.1 k-means算法的基本思路191
9.3. 2 k-means算法步驟193
9.3.3 k-means算法的局限性195
9.4層次聚類算法196
9.4.1層次聚類的基本原理196
9.4.2層次聚類的AGNES算法199
9.5密度聚類算法:DBSCAN 200
9.5.1 DBSCAN算法的基本思路200
9.5.2 DBSCAN算法步驟201
9.6本章小結與代碼實現203
9.7本章話題:Science上的一種巧妙聚類算法205
第10章字典重構:稀疏編碼209
10.1稀疏編碼的思路209
10.1.1神經生物學的發現210
10.1.2過完備性與稀疏性210
10.2稀疏編碼的數學形式213
10.3字典學習中的“字典” 215
10.3.1傳統算法中的“字典” 215
10.3.2 “字典”學習的意義216
10.4本章小結與代碼實現217
10.5本章話題:壓縮感知理論簡介220
第11章教學相長:直推式支持向量機223
11.1半監督學習簡介223
11.2 T-SVM模型227
11.2.1 T-SVM的基本思路227
11.2.2 T-SVM算法步驟228
11.3本章小結與代碼實現229
11.4本章話題:不同樣本集場景下的問題處理策略233
第12章群策群力:集成學習236
12.1自舉匯聚和提升236
12.1.1 Bagging算法和Boosting算法的基本思路237
12.1.2 Bagging算法和Boosting算法的區別與聯繫240
12.2 Bagging算法的基本步驟241
12.3 Boosting算法的基本步驟242
12.4 Bagging算法:以隨機森林算法為例243
12.4.1隨機森林算法243
12.4.2隨機森林算法中的隨機性244
12.5 Boosting算法:以Adaboost算法為例244
12.5.1 Adaboost算法的實現步驟245
12.5.2 Adaboost算法過程分析245
12.6本章小結與代碼實現246
12.7本章話題:Adaboost算法中的分步策略249
第二篇深度學習模型與方法
第13章神經網絡與深度學習:從感知機模型到阿爾法狗254
13.1感知機模型256
13.1.1感知機模型的基本原理與數學形式256
13.1.2感知機模型的缺陷與改進260
13.2人工神經網絡262
13.2.1生物神經元與感知機模型262
13.2.2人工神經網絡方法簡介264
13.2.3反向傳播算法265
13.2.4神經網絡的優勢267
13.3需要深度學習的原因268
13.4神經網絡模型的局限性268
13.5常用神經網絡框架簡介270
13.6本章話題:人工智能發展大事年表271
作者介紹
賈壯
畢業於清華大學自動化系,專業為模式識別與智能係統方向。
主要從事於機器學習與深度學習在圖像處理以及地球物理領域內的相關應用研究,對機器學習相關算法有較深的理解。
參與過多項機器學習相關工程項目,發表SCI期刊論文及會議論文數篇。
曾獲得國家獎學金、數學建模一等獎、優秀畢業生等獎項和榮譽稱號。