Alink 權威指南:基於 Flink 的機器學習實例入門 (Python)

Alink 權威指南:基於 Flink 的機器學習實例入門 (Python)

作者: 楊旭
出版社: 電子工業
出版在: 2022-03-01
ISBN-13: 9787121431289
ISBN-10: 7121431289
總頁數: 476 頁





內容描述


全書圍繞Alink(阿裡在Flink基礎上做的開源版本)的展開,以實例為主闡述Alink的使用。?以機器學習的知識架構將各個章節串聯起來,每個章節配合實例,用戶更容易理解和入手嘗試。?數據會採用讀者能免費下載的數據集,在加上Alink本身是開源的、免費的。用戶試用起來沒有成本。?實例實現的源代碼,準備放在Alink開源git上,大家容易看到,可以直接下載,代碼旁邊會有實體書的介紹?以機器學習的知識架構將各個章節串聯起來,每個章節配合實例,用戶更容易理解和入手嘗試。?數據會採用讀者能免費下載的數據集,在加上Alink本身是開源的、免費的。用戶試用起來沒有成本。?實例實現的源代碼,準備放在Alink開源git上,大家容易看到,可以直接下載,代碼旁邊會有實體書的介紹


目錄大綱


目錄
VII
目錄
1章Alink快速上手...................................................................................................... 1
1.1 Alink是什麼..............................................................................................................1
1.2 免費下載、安裝........................................................................................................2
1.3 Alink的功能..............................................................................................................2
1.3.1 豐富的算法庫................................................................................................2
1.3.2 多樣的使用體驗............................................................................................3
1.3.3 與SparkML的對比.......................................................................................4
1.4 關於數據和代碼........................................................................................................5
1.5 簡單示例....................................................................................................................6
1.5.1 數據的讀/寫與顯示.......................................................................................6
1.5.2 批式訓練和批式預測....................................................................................7
1.5.3 流式處理和流式預測..................................................................................10
1.5.4 定義Pipeline,簡化作............................................................................ 11
1.5.5 嵌入預測服務系統......................................................................................13
2章系統概況與核心概念.......................................................................................... 15
2.1 基本概念..................................................................................................................15
2.2 批式任務與流式任務..............................................................................................16
Alink 指南:基於Flink 的機器學習實例入門(Python)
VIII
2.3 Alink=A+link ...........................................................................................................19
2.3.1 BatchOperator和StreamOperator ...............................................................20
2.3.2 link方式是批式算法/流式算法的通用使用方式......................................21
2.3.3 link的簡化...................................................................................................24
2.3.4 組件的主輸出與側輸出..............................................................................25
2.4 Pipeline與PipelineModel .......................................................................................25
2.4.1 概念和定義..................................................................................................25
2.4.2 深入介紹......................................................................................................27
2.5 觸發Alink任務的執行...........................................................................................29
2.6 模型信息顯示..........................................................................................................31
2.7 文件系統與數據庫..................................................................................................35
2.8 Schema String ..........................................................................................................37
3章文件系統與數據文件.......................................................................................... 39
3.1 文件系統簡介..........................................................................................................39
3.1.1 本地文件系統..............................................................................................40
3.1.2 Hadoop文件系統.........................................................................................42
3.1.3 阿里雲OSS文件系統.................................................................................44
3.2 數據文件的讀入與導出..........................................................................................46
3.2.1 CSV格式.....................................................................................................47
3.2.2 TSV格式、LibSVM格式和Tet格式......................................................54
3.2.3 AK格式.......................................................................................................58
4章數據庫與數據表.................................................................................................. 61
4.1 簡介..........................................................................................................................61
4.1.1 Catalog的基本作.....................................................................................61
4.1.2 Source組件和Sink組件.............................................................................62
4.2 Hive示例.................................................................................................................63
4.3 Derby示例...............................................................................................................66
4.4 MySQL示例............................................................................................................68
目錄
IX
5章支持Flink SQL ................................................................................................... 70
5.1 基本作..................................................................................................................70
5.1.1 註冊..............................................................................................................70
5.1.2 運行..............................................................................................................71
5.1.3 內置函數......................................................................................................74
5.1.4 用戶定義函數..............................................................................................74
5.2 簡化作..................................................................................................................75
5.2.1 單表作......................................................................................................76
5.2.2 兩表的連接(JOIN)作..........................................................................80
5.2.3 兩表的集合作..........................................................................................82
6章用戶定義函數(UDF/UDTF) ............................................................................ 87
6.1 用戶定義標量函數(UDF) ..................................................................................87
6.1.1 示例數據及問題..........................................................................................88
6.1.2 UDF的定義.................................................................................................88
6.1.3 使用UDF處理批式數據............................................................................89
6.1.4 使用UDF處理流式數據............................................................................90
6.2 用戶定義表值函數(UDTF) ...............................................................................92
6.2.1 示例數據及問題..........................................................................................92
6.2.2 UDTF的定義...............................................................................................92
6.2.3 使用UDTF處理批式數據..........................................................................93
6.2.4 使用UDTF處理流式數據..........................................................................95
7章基本數據處理..................................................................................................... 98
7.1 採樣..........................................................................................................................98
7.1.1 取“前”N個數據.......................................................................................99
7.1.2 隨機採樣......................................................................................................99
7.1.3 加權採樣.................................................................................................... 102
7.1.4 分層採樣.................................................................................................... 103
7.2 數據劃分................................................................................................................ 104
Alink 指南:基於Flink 的機器學習實例入門(Python)
X
7.3 數值尺度變換........................................................................................................ 106
7.3.1 標準化........................................................................................................ 106
7.3.2 MinMaScale.............................................................................................. 108
7.3.3 MaAbsScale .............................................................................................. 109
7.4 向量的尺度變換.................................................................................................... 111
7.4.1 StandardScale、MinMaScale、MaAbsScale......................................... 111
7.4.2 正則化........................................................................................................ 113
7.5 缺失值填充............................................................................................................ 114
7.6 Python數組、DataFrame形式的數據和Alink批式數據之間的相互轉換...... 116
7.6.1 Python數組與DataFrame形式的數據之間的相互轉換........................ 116
7.6.2 將Alink批式數據轉換為DataFrame形式的數據.................................. 117
7.6.3 將DataFrame形式的數據轉換為Alink批式數據.................................. 118
8章線性二分類模型................................................................................................ 119
8.1 線性模型的基礎知識............................................................................................ 119
8.1.1 損失函數.................................................................................................... 119
8.1.2 經驗風險函數與結構風險函數................................................................ 121
8.1.3 線性模型與損失函數................................................................................ 122
8.1.4 邏輯回歸與線性支持向量機(Linear SVM) ........................................ 123
8.2 二分類評估方法.................................................................................................... 125
8.2.1 基本指標.................................................................................................... 126
8.2.2 綜合指標.................................................................................................... 128
8.2.3 評估曲線.................................................................................................... 131
8.3 數據探索................................................................................................................ 136
8.3.1 基本統計.................................................................................................... 138
8.3.2 相關性........................................................................................................ 140
8.4 訓練集和測試集.................................................................................................... 144
8.5 邏輯回歸模型........................................................................................................ 145
8.6 線性SVM模型..................................................................................................... 147
8.7 模型評估................................................................................................................ 149
8.8 特徵的多項式擴展................................................................................................ 154
目錄
XI
8.9 因子分解機............................................................................................................ 157
9章樸素貝葉斯模型與決策樹模型.......................................................................... 160
9.1 樸素貝葉斯模型.................................................................................................... 160
9.2 決策樹模型............................................................................................................ 162
9.2.1 決策樹的分裂指標定義............................................................................ 165
9.2.2 常用的決策樹算法.................................................................................... 167
9.2.3 指標計算示例............................................................................................ 170
9.2.4 分類樹與回歸樹........................................................................................ 173
9.2.5 經典的決策樹示例.................................................................................... 173
9.3 數據探索................................................................................................................ 176
9.4 使用樸素貝葉斯方法............................................................................................ 180
9.5 蘑菇分類的決策樹................................................................................................ 186
10章特徵的轉化..................................................................................................... 192
10.1 整體流程.............................................................................................................. 196
10.1.1 特徵啞元化.............................................................................................. 198
10.1.2 特徵的重要性.......................................................................................... 199
10.2 減少模型特徵的個數.......................................................................................... 201
10.3 離散特徵轉化...................................................................................................... 203
10.3.1 獨熱編碼.................................................................................................. 203
10.3.2 特徵哈希.................................................................................................. 205
11章構造新特徵..................................................................................................... 208
11.1 數據探索.............................................................................................................. 209
11.2 思路...................................................................................................................... 211
11.2.1 用戶和品牌的各種特徵.......................................................................... 212
11.2.2 二分類模型訓練...................................................................................... 214
11.3 計算訓練集.......................................................................................................... 214
11.3.1 原始數據劃分.......................................................................................... 214
Alink 指南:基於Flink 的機器學習實例入門(Python)
XII
11.3.2 計算特徵.................................................................................................. 216
11.3.3 計算標籤.................................................................................................. 223
11.4 正負樣本配比...................................................................................................... 225
11.5 決策樹.................................................................................................................. 228
11.6 集成學習.............................................................................................................. 229
11.6.1 Bootstrap aggregating ............................................................................... 229
11.6.2 Boosting .................................................................................................... 230
11.6.3 隨機森林與GBDT .................................................................................. 233
11.7 使用隨機森林算法.............................................................................................. 234
11.8 使用GBDT算法................................................................................................. 235
12章從二分類到多分類.......................................................................................... 237
12.1 多分類模型的評估方法...................................................................................... 237
12.1.1 綜合指標.................................................................................................. 239
12.1.2 關於每個標籤值的二分類指標.............................................................. 241
12.1.3 Micro、Macro、Weighted計算的指標.................................................. 241
12.2 數據探索.............................................................................................................. 244
12.3 使用樸素貝葉斯算法進行多分類...................................................................... 246
12.4 二分類器組合...................................................................................................... 248
12.5 Softma算法....................................................................................................... 252
12.6 多層感知器分類器.............................................................................................. 255
13章常用的多分類算法.......................................................................................... 258
13.1 數據準備.............................................................................................................. 258
13.1.1 讀取MNIST數據文件............................................................................ 259
13.1.2 稠密向量與稀疏向量.............................................................................. 260
13.1.3 標籤值的統計信息.................................................................................. 266
13.2 Softma算法....................................................................................................... 267
13.3 二分類器組合...................................................................................................... 269
13.4 多層感知器分類器(MLPC) ........................................................................... 270
13.5 決策樹與隨機森林.............................................................................................. 272
目錄
XIII
13.6 K近鄰算法...................................................................................................... 274
14章在線學習........................................................................................................ 277
14.1 整體流程.............................................................................................................. 277
14.2 數據準備.............................................................................................................. 279
14.3 特徵工程.............................................................................................................. 281
14.4 使用特徵工程處理數據...................................................................................... 282
14.5 在線訓練.............................................................................................................. 284
14.6 模型過濾.............................................................................................................. 287
15章回歸的由來..................................................................................................... 289
15.1 平均數.................................................................................................................. 290
15.2 向平均數方向的“回歸” .................................................................................. 291
15.3 線性回歸.............................................................................................................. 293
16章常用的回歸算法.............................................................................................. 296
16.1 回歸模型的評估指標.......................................................................................... 296
16.2 數據探索.............................................................................................................. 298
16.3 線性回歸.............................................................................................................. 301
16.4 決策樹與隨機森林.............................................................................................. 304
16.5 GBDT ................................................................................................................... 305
17章常用的聚類算法.............................................................................................. 307
17.1 聚類評估指標...................................................................................................... 308
17.1.1 基本評估指標.......................................................................................... 308
17.1.2 基於標籤值的評估指標.......................................................................... 310
17.2 K-Means聚類算法.............................................................................................. 312
17.2.1 算法簡介.................................................................................................. 312
17.2.2 K-Means實例.......................................................................................... 314
17.3 高斯混合模型算法.............................................................................................. 318
Alink 指南:基於Flink 的機器學習實例入門(Python)
XIV
17.3.1 算法介紹.................................................................................................. 318
17.3.2 GMM實例............................................................................................... 320
17.4 二分K-Means聚類算法..................................................................................... 321
17.5 基於經緯度的聚類.............................................................................................. 324
18章批式與流式聚類.............................................................................................. 327
18.1 稠密向量與稀疏向量.......................................................................................... 327
18.2 使用聚類模型預測流式數據.............................................................................. 329
18.3 流式聚類.............................................................................................................. 332
19章主成分分析..................................................................................................... 334
19.1 主成分的含義...................................................................................................... 336
19.2 兩種計算方式...................................................................................................... 340
19.3 在聚類方面的應用.............................................................................................. 342
19.4 在分類方面的應用.............................................................................................. 346
20章參數搜索..................................................................................................... 350
20.1 示例一:嘗試正則係數...................................................................................... 351
20.2 示例二:搜索GBDT參數............................................................................. 352
20.3 示例三:佳聚類個數...................................................................................... 353
21章文本分析........................................................................................................ 355
21.1 數據探索.............................................................................................................. 355
21.2 分詞...................................................................................................................... 357
21.2.1 中文分詞.................................................................................................. 357
21.2.2 Tokenizer和RegeTokenizer .................................................................. 361
21.3 詞頻統計.............................................................................................................. 365
21.4 單詞的區分度...................................................................................................... 367
21.5 抽取關鍵詞.......................................................................................................... 369
21.5.1 原理簡介.................................................................................................. 370
目錄
XV
21.5.2 示例.......................................................................................................... 371
21.6 文本相似度.......................................................................................................... 373
21.6.1 文本成對比較.......................................................................................... 374
21.6.2 相似的TopN ........................................................................................ 377
21.7 主題模型.............................................................................................................. 389
21.7.1 LDA模型................................................................................................. 390
21.7.2 新聞的主題模型...................................................................................... 392
21.7.3 主題與原始分類的對比.......................................................................... 394
21.8 組件使用小結...................................................................................................... 399
22章單詞向量化..................................................................................................... 400
22.1 單詞向量預訓練模型.......................................................................................... 401
22.1.1 加載模型.................................................................................................. 401
22.1.2 查找相似的單詞...................................................................................... 402
22.1.3 單詞向量.................................................................................................. 404
22.2 將單詞映為向量.............................................................................................. 409
23章情感分析........................................................................................................ 414
23.1 使用提供的特徵.................................................................................................. 415
23.1.1 使用樸素貝葉斯方法.............................................................................. 418
23.1.2 使用邏輯回歸算法.................................................................................. 422
23.2 如何提取特徵...................................................................................................... 425
23.3 構造更多特徵...................................................................................................... 429
23.4 模型保存與預測.................................................................................................. 432
23.4.1 批式/流式預測任務................................................................................. 432
23.4.2 嵌入式預測.............................................................................................. 433
24章構建推薦系統................................................................................................. 435
24.1 與推薦相關的組件介紹...................................................................................... 436
24.2 常用的推薦算法.................................................................................................. 439
Alink 指南:基於Flink 的機器學習實例入門(Python)
XVI
24.2.1 協同過濾.................................................................................................. 439
24.2.2 交替小二乘法...................................................................................... 440
24.3 數據探索.............................................................................................................. 441
24.4 評分預測.............................................................................................................. 446
24.5 根據用戶推薦影片.............................................................................................. 448
24.6 計算相似影片...................................................................................................... 453
24.7 根據影片推薦用戶.............................................................................................. 456
24.8 計算相似用戶...................................................................................................... 458




相關書籍

網絡爬蟲進化論 — 從 Excel 爬蟲到 Python 爬蟲

作者 曹鑑華

2022-03-01

Python 3.0 科學計算指南 (Scientific Computing with Python 3)

作者 [瑞典]克勞斯·福勒簡· 埃里克·索利姆奧利維爾·維迪爾

2022-03-01

Extreme DAX: Take your Power BI and Microsoft data analytics skills to the next level

作者 作者 Michiel Rozema Henk Vlootman

2022-03-01