機器學習方法
內容描述
機器學習是以概率論、統計學、信息論、化理論、計算理論等為基礎的電腦應用理論學科,也是人工智能、數據挖掘等領域的基礎學科。《機器學習方法》全面系統地介紹了機器學習的主要方法,共分三篇。第一篇介紹監督學習的主要方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦回歸與熵模型、支持向量機、Boosting、EM算法、隱馬爾可夫模型、條件隨機場等;第二篇介紹無監督學習的主要方法,包括聚類、奇異值分解、主成分分析、潛在語義分析、概率潛在語義分析、馬爾可夫鏈蒙特卡羅法、潛在狄利克雷分配、PageRank算法等。第三篇介紹深度學習的主要方法,包括前饋神經網絡、捲積神經網絡、循環神經網絡、序列到序列模型、預訓練語言模型、生成對抗網絡等。書中每章介紹一兩種機器學習方法,詳細敘述各個方法的模型、策略和算法。從具體例子入手,由淺入深,幫助讀者直觀地理解基本思路,同時從理論角度出發,給出嚴格的數學推導,嚴謹詳實,讓讀者更好地掌握基本原理和概念。目的是使讀者能學會和使用這些機器學習的基本技術。為滿足讀者進一步學習的需要,書中還對各個方法的要點進行了總結,給出了一些習題,並列出了主要參考文獻。
《機器學習方法》是機器學習及相關課程的教學參考書,適合人工智能、數據挖掘等專業的本科生、研究生使用,也供電腦各個領域的專業研發人員參考。
目錄大綱
目錄
第1篇 監 督 學 習
第1章 機器學習及監督學習概論 ................................................................................3
1.1機器學習 .......................................................................................................3
1.2機器學習的分類 .............................................................................................5
1.2.1基本分類 ............................................................................................5
1.2.2按模型分類 ....................................................................................... 10
1.2.3按算法分類 ....................................................................................... 11
1.2.4按技巧分類 ....................................................................................... 12
1.3機器學習方法三要素 .................................................................................... 13
1.3.1模型 ................................................................................................. 13
1.3.2策略 ................................................................................................. 14
1.3.3算法 ................................................................................................. 16
1.4模型評估與模型選擇 .................................................................................... 17
1.4.1訓練誤差與測試誤差 .......................................................................... 17
1.4.2過擬合與模型選擇 ............................................................................. 18
1.5正則化與交叉驗證 ........................................................................................ 20
1.5.1正則化 .............................................................................................. 20
1.5.2交叉驗證 .......................................................................................... 20
1.6泛化能力 ..................................................................................................... 21
1.6.1泛化誤差 .......................................................................................... 21
1.6.2泛化誤差上界 .................................................................................... 22
1.7生成模型與判別模型 .................................................................................... 24
1.8監督學習應用 .............................................................................................. 24
1.8.1分類問題 .......................................................................................... 24
1.8.2標註問題 .......................................................................................... 26
1.8.3回歸問題 .......................................................................................... 27
本章概要 .............................................................................................................28
繼續閱讀 .............................................................................................................29
習題 ...................................................................................................................29
參考文獻 .............................................................................................................29
VIII機器學習方法
第 2章感知機......................................................................................................... 30
2.1感知機模型 .................................................................................................. 30
2.2感知機學習策略 ........................................................................................... 31
2.2.1數據集的線性可分性 .......................................................................... 31
2.2.2感知機學習策略 ................................................................................ 31
2.3感知機學習算法 ........................................................................................... 32
2.3.1感知機學習算法的原始形式 ................................................................33
2.3.2算法的收斂性 .................................................................................... 35
2.3.3感知機學習算法的對偶形式 ................................................................37
本章概要 .............................................................................................................39
繼續閱讀 .............................................................................................................40
習題 ...................................................................................................................40
參考文獻 .............................................................................................................40
第 3章 k近鄰法 ..................................................................................................... 41
3.1 k近鄰算法 .................................................................................................. 41
3.2 k近鄰模型 .................................................................................................. 42
3.2.1模型 ................................................................................................. 42
3.2.2距離度量 .......................................................................................... 42
3.2.3 k值的選擇 ....................................................................................... 43
3.2.4分類決策規則 .................................................................................... 44
3.3 k近鄰法的實現:kd樹 ................................................................................. 44
3.3.1構造 kd樹 ........................................................................................ 45
3.3.2搜索 kd樹 ........................................................................................ 46
本章概要 .............................................................................................................48
繼續閱讀 .............................................................................................................48
習題 ...................................................................................................................48
參考文獻 .............................................................................................................49
第 4章樸素貝葉斯法............................................................................................... 50
4.1樸素貝葉斯法的學習與分類 .......................................................................... 50
4.1.1基本方法 .......................................................................................... 50
4.1.2後驗概率最大化的含義 ......................................................................51
4.2樸素貝葉斯法的參數估計 .............................................................................. 52
4.2.1極大似然估計 .................................................................................... 52
4.2.2學習與分類算法 ................................................................................ 53
4.2.3貝葉斯估計 ....................................................................................... 54
本章概要 .............................................................................................................55
繼續閱讀 .............................................................................................................56
目錄 IX
習題 ...................................................................................................................56
參考文獻 .............................................................................................................56
第 5章決策樹......................................................................................................... 57
5.1決策樹模型與學習 ........................................................................................ 57
5.1.1決策樹模型 ....................................................................................... 57
5.1.2決策樹與 if-then規則 ........................................................................ 58
5.1.3決策樹與條件概率分佈 ......................................................................58
5.1.4決策樹學習 ....................................................................................... 58
5.2特徵選擇 ..................................................................................................... 60
5.2.1特徵選擇問題 .................................................................................... 60
5.2.2信息增益 .......................................................................................... 61
5.2.3信息增益比 ....................................................................................... 64
5.3決策樹的生成 .............................................................................................. 64
5.3.1 ID3算法 ........................................................................................... 65
5.3.2 C4.5的生成算法 ............................................................................... 66
5.4決策樹的剪枝 .............................................................................................. 66
5.5 CART算法 ................................................................................................. 68
5.5.1 CART生成 ...................................................................................... 69
5.5.2 CART剪枝 ...................................................................................... 72
本章概要 .............................................................................................................74
繼續閱讀 .............................................................................................................75
習題 ...................................................................................................................75
參考文獻 .............................................................................................................75
第 6章邏輯斯諦回歸與最大熵模型........................................................................... 77
6.1邏輯斯諦回歸模型 ........................................................................................ 77
6.1.1邏輯斯諦分佈 .................................................................................... 77
6.1.2二項邏輯斯諦回歸模型 ......................................................................78
6.1.3模型參數估計 .................................................................................... 79
6.1.4多項邏輯斯諦回歸 ............................................................................. 79
6.2最大熵模型 .................................................................................................. 80
6.2.1最大熵原理 ....................................................................................... 80
6.2.2最大熵模型的定義 ............................................................................. 82
6.2.3最大熵模型的學習 ............................................................................. 83
6.2.4極大似然估計 .................................................................................... 86
6.3模型學習的最優化算法 ................................................................................. 87
6.3.1改進的迭代尺度法 ............................................................................. 87
6.3.2擬牛頓法 .......................................................................................... 90
機器學習方法
本章概要 .............................................................................................................91
繼續閱讀 .............................................................................................................92
習題 ...................................................................................................................92
參考文獻 .............................................................................................................93
第 7章支持向量機 .................................................................................................. 94
7.1線性可分支持向量機與硬間隔最大化 .............................................................94
7.1.1線性可分支持向量機 .......................................................................... 94
7.1.2函數間隔和幾何間隔 .......................................................................... 96
7.1.3間隔最大化 ....................................................................................... 97
7.1.4學習的對偶算法 .............................................................................. 101
7.2線性支持向量機與軟間隔最大化 .................................................................. 106
7.2.1線性支持向量機 .............................................................................. 106
7.2.2學習的對偶算法 .............................................................................. 107
7.2.3支持向量 ........................................................................................ 110
7.2.4合頁損失函數 .................................................................................. 111
7.3非線性支持向量機與核函數 ........................................................................ 112
7.3.1核技巧 ............................................................................................ 112
7.3.2正定核 ............................................................................................ 115
7.3.3常用核函數 ..................................................................................... 118
7.3.4非線性支持向量分類機 .................................................................... 120
7.4序列最小最優化算法 .................................................................................. 121
7.4.1兩個變量二次規劃的求解方法 .......................................................... 122
7.4.2變量的選擇方法 .............................................................................. 124
7.4.3 SMO算法 ...................................................................................... 126
本章概要 ........................................................................................................... 127
繼續閱讀 ........................................................................................................... 129
習題 ................................................................................................................. 129
參考文獻 ........................................................................................................... 129
第 8章 Boosting .................................................................................................. 131
8.1 AdaBoost算法 .......................................................................................... 131
8.1.1 Boosting的基本思路 ....................................................................... 131
8.1.2 AdaBoost算法 ................................................................................ 132
8.1.3 AdaBoost的例子 ............................................................................ 134
8.2 AdaBoost算法的訓練誤差分析 ................................................................... 135
8.3 AdaBoost算法的解釋 ................................................................................ 137
8.3.1前向分步算法 .................................................................................. 137
8.3.2前向分步算法與 AdaBoost ................................................................ 138
目錄 XI
8.4提升樹 ...................................................................................................... 140
8.4.1提升樹模型 ..................................................................................... 140
8.4.2提升樹算法 ..................................................................................... 140
8.4.3梯度提升 ........................................................................................ 144
本章概要 ........................................................................................................... 145
繼續閱讀 ........................................................................................................... 146
習題 ................................................................................................................. 146
參考文獻 ........................................................................................................... 146
第 9章 EM算法及其推廣 ..................................................................................... 148
9.1 EM算法的引入 ......................................................................................... 148
9.1.1 EM算法 ......................................................................................... 148
9.1.2 EM算法的導出 ............................................................................... 151
9.1.3 EM算法在無監督學習中的應用 ....................................................... 153
9.2 EM算法的收斂性 ...................................................................................... 153
9.3 EM算法在高斯混合模型學習中的應用 ........................................................ 154
9.3.1高斯混合模型 .................................................................................. 155
9.3.2高斯混合模型參數估計的 EM算法 ................................................... 155
9.4 EM算法的推廣 ......................................................................................... 158
9.4.1 F函數的極大-極大算法 ................................................................... 158
9.4.2 GEM算法 ...................................................................................... 160
本章概要 ........................................................................................................... 161
繼續閱讀 ........................................................................................................... 162
習題 ................................................................................................................. 162
參考文獻 ........................................................................................................... 162
第 10章隱馬爾可夫模型........................................................................................ 163
10.1隱馬爾可夫模型的基本概念 ....................................................................... 163
10.1.1隱馬爾可夫模型的定義 ................................................................. 163
10.1.2觀測序列的生成過程 ..................................................................... 166
10.1.3隱馬爾可夫模型的 3個基本問題 .................................................... 166
10.2概率計算算法 ........................................................................................... 166
10.2.1直接計算法 .................................................................................. 166
10.2.2前向算法 ..................................................................................... 167
10.2.3後向算法 ..................................................................................... 169
10.2.4一些概率與期望值的計算 .............................................................. 170
10.3學習算法 ................................................................................................. 172
10.3.1監督學習方法 ............................................................................... 172
10.3.2 Baum-Welch算法 ........................................................................ 172
XII機器學習方法
10.3.3 Baum-Welch模型參數估計公式 .................................................... 174
10.4預測算法 ................................................................................................. 175
10.4.1近似算法 ..................................................................................... 175
10.4.2維特比算法 .................................................................................. 176
本章概要 ........................................................................................................... 179
繼續閱讀 ........................................................................................................... 179
習題 ................................................................................................................. 180
參考文獻 ........................................................................................................... 180
第 11章條件隨機場 .............................................................................................. 181
11.1概率無向圖模型 ....................................................................................... 181
11.1.1模型定義 ..................................................................................... 181
11.1.2概率無向圖模型的因子分解 ........................................................... 183
11.2條件隨機場的定義與形式 .......................................................................... 184
11.2.1條件隨機場的定義 ........................................................................ 184
11.2.2條件隨機場的參數化形式 .............................................................. 185
11.2.3條件隨機場的簡化形式 ................................................................. 186
11.2.4條件隨機場的矩陣形式 ................................................................. 187
11.3條件隨機場的概率計算問題 ....................................................................... 189
11.3.1前向-後向算法 .............................................................................. 189
11.3.2概率計算 ..................................................................................... 189
11.3.3期望值的計算 ............................................................................... 190
11.4條件隨機場的學習算法 ............................................................................. 191
11.4.1改進的迭代尺度法 ........................................................................ 191
11.4.2擬牛頓法 ..................................................................................... 194
11.5條件隨機場的預測算法 ............................................................................. 195
本章概要 ........................................................................................................... 197
繼續閱讀 ........................................................................................................... 198
習題 ................................................................................................................. 198
參考文獻 ........................................................................................................... 199
第 12章監督學習方法總結 .................................................................................... 200
第
2篇
無
監
督
學
習
無監學習
第 13章無監督學習概論........................................................................................ 207
13.1無監督學習基本原理 ................................................................................. 207
13.2基本問題 ................................................................................................. 208
13.3機器學習三要素 ....................................................................................... 210
13.4無監督學習方法 ....................................................................................... 210
目錄 XIII
本章概要 ........................................................................................................... 214
繼續閱讀 ........................................................................................................... 215
參考文獻 ........................................................................................................... 215
第 14章聚類方法.................................................................................................. 216
14.1聚類的基本概念 ....................................................................................... 216
14.1.1相似度或距離 ............................................................................... 216
14.1.2類或簇 ......................................................................................... 219
14.1.3類與類之間的距離 ........................................................................ 220
14.2層次聚類 ................................................................................................. 220
14.3 k均值聚類 .............................................................................................. 222
14.3.1模型 ............................................................................................ 222
14.3.2策略 ............................................................................................ 223
14.3.3算法 ............................................................................................ 224
14.3.4算法特性 ..................................................................................... 225
本章概要 ........................................................................................................... 226
繼續閱讀 ........................................................................................................... 227
習題 ................................................................................................................. 227
參考文獻 ........................................................................................................... 227
第 15章奇異值分解 .............................................................................................. 229
15.1奇異值分解的定義與性質 .......................................................................... 229
15.1.1定義與定理 .................................................................................. 229
15.1.2緊奇異值分解與截斷奇異值分解 .................................................... 233
15.1.3幾何解釋 ..................................................................................... 235
15.1.4主要性質 ..................................................................................... 237
15.2奇異值分解的計算 .................................................................................... 238
15.3奇異值分解與矩陣近似 ............................................................................. 241
15.3.1弗羅貝尼烏斯範數 ........................................................................ 241
15.3.2矩陣的最優近似 ........................................................................... 242
15.3.3矩陣的外積展開式 ........................................................................ 245
本章概要 ........................................................................................................... 247
繼續閱讀 ........................................................................................................... 248
習題 ................................................................................................................. 248
參考文獻 ........................................................................................................... 249
第 16章主成分分析 .............................................................................................. 250
16.1總體主成分分析 ....................................................................................... 250
16.1.1基本想法 ..................................................................................... 250
XIV機器學習方法
16.1.2定義和導出 .................................................................................. 252
16.1.3主要性質 ..................................................................................... 253
16.1.4主成分的個數 ............................................................................... 257
16.1.5規範化變量的總體主成分 .............................................................. 260
16.2樣本主成分分析 ....................................................................................... 260
16.2.1樣本主成分的定義和性質 .............................................................. 261
16.2.2相關矩陣的特徵值分解算法 ........................................................... 263
16.2.3數據矩陣的奇異值分解算法 ........................................................... 265
本章概要 ........................................................................................................... 267
繼續閱讀 ........................................................................................................... 269
習題 ................................................................................................................. 269
參考文獻 ........................................................................................................... 269
第 17章潛在語義分析 ........................................................................................... 271
17.1單詞向量空間與話題向量空間 ................................................................... 271
17.1.1單詞向量空間 ............................................................................... 271
17.1.2話題向量空間 ............................................................................... 273
17.2潛在語義分析算法 .................................................................................... 276
17.2.1矩陣奇異值分解算法 ..................................................................... 276
17.2.2例子 ............................................................................................ 278
17.3非負矩陣分解算法 .................................................................................... 279
17.3.1非負矩陣分解 ............................................................................... 279
17.3.2潛在語義分析模型 ........................................................................ 280
17.3.3非負矩陣分解的形式化 ................................................................. 280
17.3.4算法 ............................................................................................ 281
本章概要 ........................................................................................................... 283
繼續閱讀 ........................................................................................................... 284
習題 ................................................................................................................. 284
參考文獻 ........................................................................................................... 285
第 18章概率潛在語義分析 .................................................................................... 286
18.1概率潛在語義分析模型 ............................................................................. 286
18.1.1基本想法 ..................................................................................... 286
18.1.2生成模型 ..................................................................................... 287
18.1.3共現模型 ..................................................................................... 288
18.1.4模型性質 ..................................................................................... 289
18.2概率潛在語義分析的算法 .......................................................................... 291
本章概要 ........................................................................................................... 293
繼續閱讀 ........................................................................................................... 294
目錄 XV
習題 ................................................................................................................. 294
參考文獻 ........................................................................................................... 295
第 19章馬爾可夫鏈蒙特卡羅法.............................................................................. 296
19.1蒙特卡羅法 .............................................................................................. 296
19.1.1隨機抽樣 ..................................................................................... 296
19.1.2數學期望估計 ............................................................................... 297
19.1.3積分計算 ..................................................................................... 298
19.2馬爾可夫鏈 .............................................................................................. 299
19.2.1基本定義 ..................................................................................... 299
19.2.2離散狀態馬爾可夫鏈 ..................................................................... 300
19.2.3連續狀態馬爾可夫鏈 ..................................................................... 305
19.2.4馬爾可夫鏈的性質 ........................................................................ 306
19.3馬爾可夫鏈蒙特卡羅法 ............................................................................. 310
19.3.1基本想法 ..................................................................................... 310
19.3.2基本步驟 ..................................................................................... 311
19.3.3馬爾可夫鏈蒙特卡羅法與統計學習 ................................................. 311
19.4 Metropolis-Hastings算法 .......................................................................... 312
19.4.1基本原理 ..................................................................................... 312
19.4.2 Metropolis-Hastings算法 .............................................................. 315
19.4.3單分量 Metropolis-Hastings算法 ................................................... 315
19.5吉布斯抽樣 .............................................................................................. 316
19.5.1基本原理 ..................................................................................... 316
19.5.2吉布斯抽樣算法 ........................................................................... 318
19.5.3抽樣計算 ..................................................................................... 319
本章概要 ........................................................................................................... 320
繼續閱讀 ........................................................................................................... 321
習題 ................................................................................................................. 321
參考文獻 ........................................................................................................... 322
第 20章潛在狄利克雷分配 .................................................................................... 324
20.1狄利克雷分佈 ........................................................................................... 324
20.1.1分佈定義 ..................................................................................... 324
20.1.2共軛先驗 ..................................................................................... 327
20.2潛在狄利克雷分配模型 ............................................................................. 328
20.2.1基本想法 ..................................................................................... 328
20.2.2模型定義 ..................................................................................... 329
20.2.3概率圖模型 .................................................................................. 331
20.2.4隨機變量序列的可交換性 .............................................................. 332
XVI機器學習方法
20.2.5概率公式 ..................................................................................... 332
20.3 LDA的吉布斯抽樣算法 ............................................................................ 333
20.3.1基本想法 ..................................................................................... 333
20.3.2算法的主要部分 ........................................................................... 334
20.3.3算法的後處理 ............................................................................... 336
20.3.4算法 ............................................................................................ 337
20.4 LDA的變分 EM算法 ............................................................................... 338
20.4.1變分推理 ..................................................................................... 338
20.4.2變分 EM算法 .............................................................................. 339
20.4.3算法推導 ..................................................................................... 340
20.4.4算法總結 ..................................................................................... 346
本章概要 ........................................................................................................... 346
繼續閱讀 ........................................................................................................... 348
習題 ................................................................................................................. 348
參考文獻 ........................................................................................................... 348
第 21章 PageRank算法 ...................................................................................... 349
21.1 PageRank的定義 ..................................................................................... 349
21.1.1基本想法 ..................................................................................... 349
21.1.2有向圖和隨機游走模型 ................................................................. 350
21.1.3 PageRank的基本定義 .................................................................. 352
21.1.4 PageRank的一般定義 .................................................................. 354
21.2 PageRank的計算 ..................................................................................... 355
21.2.1迭代算法 ..................................................................................... 355
21.2.2冪法 ............................................................................................ 357
21.2.3代數算法 ..................................................................................... 361
本章概要 ........................................................................................................... 362
繼續閱讀 ........................................................................................................... 363
習題 ................................................................................................................. 363
參考文獻 ........................................................................................................... 364
第 22章無監督學習方法總結 ................................................................................. 365
22.1無監督學習方法的關系和特點 ................................................................... 365
22.1.1各種方法之間的關系 ..................................................................... 365
22.1.2無監督學習方法 ........................................................................... 366
22.1.3基礎機器學習方法 ........................................................................ 366
22.2話題模型之間的關系和特點 ....................................................................... 367
參考文獻 ........................................................................................................... 368
目錄 XVII
第
3篇
深
度
學
習
第 23章前饋神經網絡 ........................................................................................... 371
23.1前饋神經網絡的模型 ................................................................................. 371
23.1.1前饋神經網絡定義 ........................................................................ 372
23.1.2前饋神經網絡的例子 ..................................................................... 381
23.1.3前饋神經網絡的表示能力 .............................................................. 386
23.2前饋神經網絡的學習算法 .......................................................................... 389
23.2.1前饋神經網絡學習 ........................................................................ 389
23.2.2前饋神經網絡學習的優化算法 ....................................................... 391
23.2.3反向傳播算法 ............................................................................... 393
23.2.4在計算圖上的實現 ........................................................................ 397
23.2.5算法的實現技巧 ........................................................................... 401
23.3前饋神經網絡學習的正則化 ....................................................................... 406
23.3.1深度學習中的正則化 ..................................................................... 406
23.3.2早停法 ......................................................................................... 406
23.3.3暫退法 ......................................................................................... 408
本章概要 ........................................................................................................... 410
繼續閱讀 ........................................................................................................... 413
習題 ................................................................................................................. 413
參考文獻 ........................................................................................................... 414
第 24章捲積神經網絡 ........................................................................................... 415
24.1捲積神經網絡的模型 ................................................................................. 415
24.1.1背景 ............................................................................................ 415
24.1.2捲積 ............................................................................................ 416
24.1.3匯聚 ............................................................................................ 424
24.1.4捲積神經網絡 ............................................................................... 427
24.1.5捲積神經網絡性質 ........................................................................ 430
24.2捲積神經網絡的學習算法 .......................................................................... 432
24.2.1捲積導數 ..................................................................................... 432
24.2.2反向傳播算法 ............................................................................... 433
24.3圖像分類中的應用 .................................................................................... 436
24.3.1 AlexNet........................................................................................ 436
24.3.2殘差網絡 ..................................................................................... 437
本章概要 ........................................................................................................... 441
繼續閱讀 ........................................................................................................... 443
習題 ................................................................................................................. 443
參考文獻 ........................................................................................................... 445
XVIII機器學習方法
第 25章循環神經網絡 ........................................................................................... 447
25.1簡單循環神經網絡 .................................................................................... 447
25.1.1模型 ............................................................................................ 447
25.1.2學習算法 ..................................................................................... 450
25.2常用循環神經網絡 .................................................................................... 454
25.2.1長短期記憶網絡 ........................................................................... 454
25.2.2門控循環單元網絡 ........................................................................ 457
25.2.3深度循環神經網絡 ........................................................................ 458
25.2.4雙向循環神經網絡 ........................................................................ 459
25.3自然語言生成中的應用 ............................................................................. 460
25.3.1詞向量 ......................................................................................... 460
25.3.2語言模型與語言生成 ..................................................................... 463
本章概要 ........................................................................................................... 465
繼續閱讀 ........................................................................................................... 467
習題 ................................................................................................................. 467
參考文獻 ........................................................................................................... 468
第 26章序列到序列模型........................................................................................ 469
26.1序列到序列基本模型 ................................................................................. 469
26.1.1序列到序列學習 ........................................................................... 469
26.1.2基本模型 ..................................................................................... 471
26.2 RNN Search模型 ..................................................................................... 472
26.2.1註意力 ......................................................................................... 472
26.2.2模型定義 ..................................................................................... 474
26.2.3模型特點 ..................................................................................... 475
26.3 Transformer模型 ..................................................................................... 475
26.3.1模型架構 ..................................................................................... 476
26.3.2模型特點 ..................................................................................... 482
本章概要 ........................................................................................................... 483
繼續閱讀 ........................................................................................................... 486
習題 ................................................................................................................. 486
參考文獻 ........................................................................................................... 486
第 27章預訓練語言模型........................................................................................ 488
27.1 GPT模型 ................................................................................................ 488
27.1.1預訓練語言模型 ........................................................................... 488
27.1.2模型和學習 .................................................................................. 490
27.2 BERT模型 .............................................................................................. 493
27.2.1去噪自動編碼器 ........................................................................... 493
27.2.2模型和學習 .................................................................................. 495
目錄 XIX
27.2.3模型特點 ..................................................................................... 499
本章概要 ........................................................................................................... 500
繼續閱讀 ........................................................................................................... 502
習題 ................................................................................................................. 502
參考文獻 ........................................................................................................... 502
第 28章生成對抗網絡 ........................................................................................... 504
28.1 GAN基本模型 ......................................................................................... 504
28.1.1模型 ............................................................................................ 504
28.1.2學習算法 ..................................................................................... 506
28.1.3理論分析 ..................................................................................... 507
28.2圖像生成中的應用 .................................................................................... 508
28.2.1轉置捲積 ..................................................................................... 509
28.2.2 DCGAN ....................................................................................... 511
本章概要 ........................................................................................................... 513
繼續閱讀 ........................................................................................................... 514
習題 ................................................................................................................. 514
參考文獻 ........................................................................................................... 515
第 29章深度學習方法總結 .................................................................................... 516
29.1深度學習的模型 ....................................................................................... 516
29.2深度學習的方法 ....................................................................................... 518
29.3深度學習的優化算法 ................................................................................. 520
29.4深度學習的優缺點 .................................................................................... 522
參考文獻 ........................................................................................................... 523
附錄 A梯度下降法 ................................................................................................ 524
附錄 B牛頓法和擬牛頓法....................................................................................... 526
附錄 C拉格朗日對偶性 .......................................................................................... 531
附錄 D矩陣的基本子空間 ...................................................................................... 534
附錄 E KL散度的定義和狄利克雷分佈的性質 ......................................................... 537
附錄 F軟最大化函數的偏導數和交叉熵損失函數的偏導數 ........................................ 539
索引......................................................................................................................... 541