統計學習要素:機器學習中的數據挖掘、推斷與預測, 2/e (The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2/e)
內容描述
《統計學習要素:機器學習中的數據挖掘、推斷與預測(第2版)》
在一個通用的概念框架中描述通用於數據挖掘、機器學習和生物信息學等領域的重要思想和概念。
這些統計學範疇下的概念是人工智能與機器學習的基礎。
全書共18 章,主題包括監督學習、回歸的線性方法、分類的線性方法、基展開和正則化、
核光滑方法、模型評估和選擇、模型推斷和平均、加性模型、樹和相關方法、
Boosting 和加性樹、神經網絡、支持向量機和柔性判斷、原型方法和最近鄰、
非監督學習、隨機森林、集成學習、無向圖模型和高維問題等。
《統計學習要素:機器學習中的數據挖掘、推斷與預測(第2版)》主題全面,
是一本經典的統計學習教材,適合本科高年級學生和研究生使用和參考。
目錄大綱
簡明目錄
第1 章概述1
第2 章監督學習綜述7
第3 章回歸的線性方法7
第4 章分類的線性方法77
第5 章基展開與正則化方法105
第6 章核平滑方法143
第7 章模型的評估和選擇165
第8 章模型的推斷和平均197
第9 章加性模型、樹和相關方法223
第10 章Boosting 和加性樹255
第11 章神經網絡293
第12 章支持向量機與柔性判別分析315
第13 章原型方法與最近鄰347
第14 章非監督學習365
第15 章隨機森林441
第16 章集成學習455
第17 章無向圖模型471
第18 章高維問題:p≫N 489
第1 章概述 1
1.1 示例1:垃圾郵件 1
1.2 示例2:前列腺癌 2
1.3 示例3:手寫數字識別 2
1.4 示例4:DNA 表達微陣列 4
1.5 本書的讀者群體 5
1.6 本書的組織 6
1.7 本書網站 6
1.8 給教師的建議 6
第2 章監督學習綜述 7
2.1 概述 7
2.2 變量類型和術語 7
2.3 兩個簡單的預測方法:最小二乘和最近鄰 8
2.3.1 線性模型和最小二乘 8
2.3.2 最近鄰方法 11
2.3.3 從最小二乘到最近鄰 12
2.4 統計決策理論 14
2.5 高維中的局部方法 17
2.6 統計模型、監督學習和函數逼近 21
2.6.1 聯合分佈Pr(𝑋,𝑌) 的統計模型 21
2.6.2 監督學習 22
2.6.3 函數逼近 22
2.7 結構化的回歸模型 24
2.8 受限估計子的種類 26
2.8.1 粗糙度懲罰和貝葉斯方法 26
2.8.2 核方法和局部回歸 26
2.8.3 基函數和詞典方法 27
2.9 模型選擇和偏差-方差折衷 28
文獻說明 30
習題 30
第3 章回歸的線性方法 33
3.1 概述 33
3.2 線性回歸模型和最小二乘 33
3.2.1 示例:前列腺癌 38
3.2.2 高斯-馬爾可夫定理 39
3.2.3 源自簡單一元回歸的多元回歸 40
3.2.4 多元輸出 43
3.3 子集選擇 44
3.3.1 最佳子集選擇 44
3.3.2 分步前向和分步反向選擇 45
3.3.3 分階段前向回歸 46
3.3.4 示例:前列腺癌(續) 46
3.4 收縮方法 47
3.4.1 嶺回歸 48
3.4.2 Lasso 回歸 52
3.4.3 討論:子集選擇、嶺回歸和Lasso 回歸 . 54
3.4.4 最小角度回歸 56
3.5 採用導出的輸入方向的方法 60
3.5.1 主成分回歸 60
3.5.2 偏最小二乘 61
3.6 討論:選擇和收縮方法的比較 62
3.7 多元輸出的收縮和選擇 63
3.8 關於Lasso 和相關路徑算法的更多討論 65
3.8.1 增量式分階段前向回歸 65
3.8.2 分段線性路徑算法 67
3.8.3 Dantzig 選擇算子 67
3.8.4 成組Lasso 68
3.8.5 Lasso 的進一步特性 69
3.8.6 逐路徑坐標優化 70
3.9 計算考慮 71
文獻說明 71
習題 71
第4 章分類的線性方法 77
4.1 概述 77
4.2 指示矩陣的線性回歸 78
4.3 線性判別分析 82
4.3.1 正則判別分析 85
4.3.2 LDA 的計算 86
4.3.3 降秩線性判別分析 86
4.4 Logistic 回歸 90
4.4.1 擬合Logistics 回歸模型 90
4.4.2 示例:南非人的心臟病 92
4.4.3 二次逼近和推斷 94
4.4.4 𝐿1 正則化Logistic 回歸 95
4.4.5 Logistic 回歸或LDA? 96
4.5 分離超平面 97
4.5.1 羅森布拉特的感知機學習算法 99
4.5.2 最優分離超平面 100
文獻說明 102
習題 102
第5 章基展開與正則化方法 105
5.1 概述 105
5.2 分段多項式與樣條 106
5.2.1 自然三次樣條 109
5.2.2 示例:南非心臟病(續) 109
5.2.3 示例:音素識別 111
5.3 濾波與特徵抽取 113
5.4 平滑樣條 113
5.5 平滑參數的自動選取 118
5.5.1 固定自由度 118
5.5.2 偏差—方差折衷 119
5.6 非參Logistic 回歸 121
5.7 多維樣條 122
5.8 正則化與再生核希爾伯特空間 126
5.8.1 核生成的函數空間 126
5.8.2 RKHS 的例子 126
5.9 小波平滑 131
5.9.1 小波基與小波變換 133
5.9.2 自適應小波濾波 135
文獻說明 137
習題 137
附加內容:樣條的計算 140
𝐵 樣條 140
平滑樣條的計算 142
第6 章核平滑方法 143
6.1 一維核平滑方法 143
6.1.1 局部線性回歸 145
6.1.2 局部多項式回歸 147
6.2 選擇核寬度 149
6.3 R𝑝 上的局部回歸 150
6.4 R𝑝 上特徵結構化局部回歸 152
6.4.1 結構化的核函數 152
6.4.2 結構化的回歸函數 152
6.5 局部似然與其他模型 153
6.6 核密度估計與分類 156
6.6.1 核密度估計 156
6.6.2 核密度分類 157
6.6.3 樸素貝葉斯分類器 158
6.7 徑向基函數與核 159
6.8 密度估計與分類的混合模型 161
6.9 計算細節 162
文獻說明 163
習題 163
第7 章模型的評估和選擇 165
7.1 概述 165
7.2 偏差、方差與模型復雜性 165
7.3 偏差-方差分解 168
7.4 訓練錯誤率的樂觀估計 171
7.5 樣本內預測錯誤的估計 173
7.6 參數的有效個數 175
7.7 貝葉斯方法和BIC 175
7.8 最小描述長度 177
7.9 Vapnik-Chernovenkis 維數 178
7.10 交叉驗證 182
7.10.1 𝑘 折交叉驗證 182
7.10.2 交叉驗證的錯誤和正確做法 185
7.10.3 交叉驗證有效嗎? 186
7.11 自舉法 188
7.12 條件還是期望測試誤差? 191
文獻說明 193
習題 194
第8 章模型的推斷和平均 197
8.1 概述 197
8.2 Bootstrap 和最大似然方法 197
8.2.1 一個光滑的示例 197
8.2.2 最大似然推斷 199
8.2.3 Bootstrap 與最大似然 201
8.3 貝葉斯方法 202
8.4 Bootstrap 和貝葉斯推斷的聯系 204
8.5 EM 算法 205
8.5.1 兩分量混合模型 205
8.5.2 通用EM 算法 208
8.5.3 作為最大化-最大化過程的EM 209
8.6 MCMC 用於從後驗中採樣 210
8.7 Bagging 213
8.8 模型平均和Stacking 217
8.9 隨機搜索:Bumping 219
文獻說明 220
習題 221
第9 章加性模型、樹和相關方法 223
9.1 廣義加性模型 223
9.1.1 擬合加性模型 224
9.1.2 示例:加性Logistics 回歸 226
9.1.3 示例:預測垃圾電子郵件 227
9.1.4 小結 229
9.2 基於樹的方法 230
9.2.1 背景 230
9.2.2 回歸樹 231
9.2.3 分類樹 233
9.2.4 其他問題 234
9.2.5 示例:垃圾郵件(續) 236
9.3 PRIM:凸塊搜索 240
9.4 MARS:多元自適應回歸樣條 243
9.4.1 示例:垃圾郵件(續) 246
9.4.2 示例:模擬數據 247
9.4.3 其他問題 248
9.5 層次專家混合 248
9.6 缺失數據 251
9.7 計算考慮 252
文獻說明 252
習題 253
第10 章Boosting 和加性樹 255
10.1 Boosting 方法 255
10.2 Boosting 擬合加性模型 258
10.3 前向分階段加性建模 258
10.4 指數損失和AdaBoost 259
10.5 為什麽要用指數損失 261
10.6 損失函數和魯棒性 262
10.6.1 用於分類的魯棒損失函數 262
10.6.2 回歸的魯棒損失函數 264
10.7 數據挖掘的“現成”過程 265
10.8 示例:垃圾郵件數據 266
10.9 Boosting 樹 268
10.10 通過梯度Boosting 的數值優化 270
10.10.1 最速下降 270
10.10.2 梯度Boosting 271
10.10.3 梯度Boosting 的執行 272
10.11 Boosting 合適大小的樹 273
10.12 正則化 275
10.12.1 收縮 275
10.12.2 子採樣 276
10.13 解釋 277
10.13.1 預測變量的相對重要性 277
10.13.2 部分相關性圖 278
10.14 實例 280
10.14.1 加州住房 280
10.14.2 新西蘭黑魴魚 283
10.14.3 人口統計數據 287
文獻說明 289
習題 290
第11 章神經網絡 293
11.1 概述 293
11.2 投影尋蹤回歸 293
11.3 神經網絡 295
11.4 擬合神經網絡 297
11.5 神經網絡訓練中的一些問題 299
11.5.1 初始值 299
11.5.2 過擬合 299
11.5.3 輸入數據的尺度 301
11.5.4 隱層是神經網絡的學術語 301
11.5.5 多個極小值 301
11.6 示例:模擬數據 301
11.7 示例:郵政編碼數據 303
11.8 討論 307
11.9 貝葉斯神經網絡和NIPS 2003 挑戰 307
11.9.1 貝葉斯,Boosting 和Bagging 308
11.9.2 性能比較 309
11.10 計算問題 311
文獻說明 312
習題 312
第12 章支持向量機與柔性判別分析 315
12.1 概述 315
12.2 支持向量機分類器 315
12.2.1 支持向量分類器的計算 317
12.2.2 示例:混合模型(續) 318
12.3 支持向量機與核 319
12.3.1 計算分類的SVM 320
12.3.2 作為罰方法的SVM 322
12.3.3 函數估計和重建核 323
12.3.4 SVM 和維數災難 325
12.3.5 SVM 分類器的路徑算法 326
12.3.6 用於回歸支持向量機 328
12.3.7 回歸與核 329
12.3.8 討論 330
12.4 線性判別分析泛化 331
12.5 柔性判別分析 332
12.6 罰判別分析 337
12.7 混合判別分析 339
文獻說明 343
習題 344
第13 章原型方法與最近鄰 347
13.1 概述 347
13.2 原型方法 347
13.2.1 𝐾-均值聚類 347
13.2.2 向量量化學習 348
13.2.3 混合高斯 349
13.3 𝐾-近鄰分類器 350
13.3.1 示例:一個比較性研究 352
13.3.2 示例:𝐾-近鄰和圖像場景分類 353
13.3.3 不變度量和切距離 355
13.4 自適應最近鄰方法 357
13.4.1 示例 360
13.4.2 最近鄰的全局維數約簡 361
13.5 計算考慮 361
文獻說明 362
習題 362
第14 章非監督學習 365
14.1 概述 365
14.2 關聯規則 366
14.2.1 購物車分析 367
14.2.2 Apriori 算法 368
14.2.3 示例:購物車分析 370
14.2.4 非監督作為監督學習 372
14.2.5 廣義關聯規則 374
14.2.6 監督學習方法的選擇 375
14.2.7 示例:購物車分析(續) 376
14.3 聚類分析 377
14.3.1 鄰接矩陣 378
14.3.2 基於屬性的不相似性 379
14.3.3 目標不相似性 380
14.3.4 聚類算法 382
14.3.5 組合算法 382
14.3.6 𝐾-均值算法 383
14.3.7 作為軟𝐾-均值聚類的高斯混合 385
14.3.8 示例:人類癌症微陣列數據 385
14.3.9 向量量化 387
14.3.10 𝐾-中心點 388
14.3.11 實際問題 390
14.3.12 層次聚類 391
14.3.13 聚合聚類 394
14.4 自組織映射 398
14.5 主成分、主曲線和主曲面 402
14.5.1 主成分 402
14.5.2 主曲線和主曲面 407
14.5.3 譜聚類 409
14.5.4 核主成分 411
14.6 非負矩陣分解 415
14.7 獨立分量分析和探測式投影尋蹤 419
14.7.1 隱變量和因子分析 419
14.7.2 獨立分量分析 421
14.7.3 探測式投影尋蹤 425
14.7.4 ICA 的直接方法 425
14.8 多維尺度 428
14.9 非線性維數約簡和局部多維尺度 430
14.10 谷歌的PageRank 算法 432
文獻說明 434
習題 435
第15 章隨機森林 441
15.1 概述 441
15.2 隨機森林的定義 441
15.3 隨機森林的細節 444
15.3.1 包外樣本 445
15.3.2 變量重要性 445
15.3.3 鄰近圖 446
15.3.4 隨機森林與過擬合 447
15.4 分析隨機森林 449
15.4.1 變量與去相關影響 449
15.4.2 偏差 451
15.4.3 自適應最近鄰 451
文獻說明 452
習題 452
第16 章集成學習 455
16.1 概述 455
16.2 Boosting 與正則化路徑 456
16.2.1 懲罰式回歸 456
16.2.2 “押稀疏”原則 459
16.2.3 正則化路徑,過擬合與邊緣 461
16.3 集成學習 463
16.3.1 學習一個好的集成 464
16.3.2 規則集成 466
文獻說明 468
習題 468
第17 章無向圖模型 471
17.1 概述 471
17.2 馬爾可夫圖及其性質 472
17.3 連續變量的無向圖模型 474
17.3.1 當圖結構已知時的參數估計 475
17.3.2 圖結構的估計 478
17.4 離散變量的無向圖模型 481
17.4.1 圖結構已知時參數的估計 481
17.4.2 隱節點 482
17.4.3 圖結構的估計 484
17.4.4 受限玻爾茲曼機 484
文獻說明 486
習題 486
第18 章高維問題:p≫N 489
18.1 𝑝 遠大於𝑁 的情形 489
18.2 對角線性判別分析與最近收縮質心 490
18.3 二次正則化的線性分類器 494
18.3.1 正則化判別分析 494
18.3.2 二次正則化的Logistic 回歸 495
18.3.3 支持向量分類器 495
18.3.4 特徵選擇 496
18.3.5 𝑝 ≫ 𝑁 時的計算捷徑 496
18.4 𝐿1 正則化的線性分類器 498
18.4.1 Lasso 在蛋白質質譜儀中的應用 500
18.4.2 函數型數據的融合Lasso 502
18.5 特徵無法獲取時的分類 502
18.5.1 示例:字符串核以及蛋白質分類 504
18.5.2 使用內積核以及成對距離的分類和其他模型 505
18.5.3 示例:摘要分類 507
18.6 高維回歸:有監督主成分 508
18.6.1 與隱變量模型的關聯 511
18.6.2 與偏最小二乘的關聯 512
18.6.3 特徵選擇的預條件處理 514
18.7 特徵評估和多重檢驗問題 515
18.7.1 錯誤發現率 517
18.7.2 非對稱割點和SAM 過程 520
18.7.3 FDR 的貝葉斯解釋 521
文獻說明 522
習題 522
參考文獻 527
關鍵名詞和術語中英文對照 543
作者介紹
斯坦福大學統計學教授。
三人是該領域的傑出研究人員。
哈斯蒂在新澤西州的AT&T貝爾實驗室以技術人員身份工作9年之後,於1994年8月加入斯坦福大學任教。
哈斯蒂用S-PLUS寫了許多統計建模軟件,並發明了主要曲線和曲面。
他和提布施拉尼共同開發了廣義加性模型並寫了這一主題的熱門書。
提布施拉尼提出了Lasso,參與創作了《Bootstrap概論》,這本書取得了相當大的成功。
弗雷曼是許多數據挖掘工具的共同發明人,包括CART、MARS、投影追踪和梯度Boosting。
譯者簡介
張軍平
復旦大學計算機科學技術學院教授,博導,主要研究方向是人工智能、機器學習、生物認證和智能交通。
曾經主持多個國j級項目。
他是人工智能著名期刊IEEE Intelligent Systems 編委,擔任《軟件學報》和《自動化學報》等國內權威期刊責任編輯。他是中國自動化學會混合智能專業委員會副主任。
他在人工智能及相關專業領域發表了100餘篇論文,包括IEEE TPAMI,TNNLS,ToC,TAC和TITS等期刊以及ICML, AAAI和ECCV等國際會議上。
他的人工智能科普暢銷書《愛犯錯的智能體》榮獲了2019年中國自動化學會科普獎。
2020年中國科普作家協會第六屆優秀作品獎(中國科普創作領域z高獎)金獎以及2020年第十屆吳文俊人工智能科技進步獎(科普項目)。