機器學習測試入門與實踐

機器學習測試入門與實踐

作者: 艾輝 陳高飛 陳花 方娟紅 郭學敏 郝嶸 雷天鳴 李曼曼 李雪 孫金娟 張海霞 張咪 張朋週
出版社: 人民郵電
出版在: 2020-10-01
ISBN-13: 9787115544438
ISBN-10: 7115544433
裝訂格式: 平裝
總頁數: 329 頁





內容描述


本書全面且系統地介紹了機器學習測試技術與質量體系建設,分為5部分,共15章。
第一部分(第1~4章)涵蓋了機器學習、Python編程、數據分析的基礎知識;
第二部分(第5~7章)介紹了大數據基礎、大數據測試指南及相關工具實踐;
第三部分(第8~10章)講解了機器學習測試基礎、特徵專項測試及模型算法評估測試;
第四部分(第11~13章)介紹了模型評估平台實踐、機器學習工程技術及機器學習的持續交付流程;
第五部分(第14章和第15章)探討了AI(Artificial Intelligence)在測試領域的實踐及AI時代測試工程師的未來。
本書能夠幫助讀者了解機器學習是如何工作的,了解機器學習的質量保障是如何進行的。
工程開發人員和測試工程師通過閱讀本書,可以系統化地了解大數據測試、
特徵測試及模型評估等知識;算法工程師通過閱讀本書,
可以學習模型評測的方法和拓寬模型工程實踐的思路;
技術專家和技術管理者通過閱讀本書,可以了解機器學習質量保障與工程效能的建設方案。


目錄大綱


目錄
DY部分基礎知識
D 1章機器學習的發展和應用2
1.1什麼是機器學習2
1.2機器學習的發展3
1.3機器學習的應用5
1.3.1數據挖掘5
1.3.2人臉檢測6
1.3.3人機對弈7
1.3.4機器翻譯7
1.3.5自動駕駛7
1.3.6其他應用8
1.4本章小結8
D 2章Python編程基礎9
2.1 Python概述9
2.2 Python平台搭建9
2.2.1 Python環境部署9
2.2. 2 Python運行方式12
2.3 Python語法基礎14
2.3.1 Python編程規範14
2.3.2基本數據類型15
2.3.3 Python編程基礎18
2.3.4模塊和包21
2.3.5文件操作22
2.4本章小結23
D 3章數據分析基礎24
3.1數據分析概述24
3.1.1什麼是數據分析24
3.1.2數據分析的步驟24
3.1.3常用的數據分析策略26
3.1.4數據分析方法27
3.1.5數據分析工具28
3.2 Python中常用的數據分析庫29
3.2.1 Numpy 29
3.2.2 Pandas 33
3.2.3 Matplotlib 37
3.2.4 SciPy 39
3.3利用Python進行數據分析42
3.3.1數據加載、存儲42
3.3.2數據清洗和準備46
3.3.3數據規整54
3.3.4數據可視化61
3.3.5數據分組和聚合64
3.3.6數據分析案例70
3.4本章小結77
D 4章機器學習基礎78
4.1機器學習簡介78
4.1.1機器學習中的基本概念78
4.1 .2機器學習分類及訓練方式79
4.1.3機器學習三要素81
4.2機器學習庫83
4.2.1 Scikit-learn 83
4.2.2 StatsModels 87
4.3機器學習算法89
4.3.1回歸算法89
4.3.2支持向量機91
4.3.3決策樹92
4.3.4聚類94
4.3.5降維100
4.3. 6集成學習102
4.3.7神經網絡106
4.3.8常用模型的特點和應用場景109
4.4本章小結111
D二部分大數據測試
D 5章大數據基礎114
5.1什麼是大數據114
5.2 Hadoop生態系統115
5.2 .1 HDFS 116
5.2.2 MapReduce 118
5.2.3 Hive 121
5.2.4 HBase 124
5.2.5 Storm、Spark和Flink 131
5.3數據倉庫與ETL流程133
5.3.1什麼是ETL 133
5.3.2什麼是數據倉庫134
5.3.3數據倉庫的架構135
5.4本章小結136
D 6章大數據測試指南137
6.1大數據測試概述137
6.1.1什麼是大數據測試137
6.1.2大數據測試與傳統數據測試差異138
6.2大數據ETL測試139
6.2.1 ETL測試流程139
6.2.2 ETL測試方法140
6.2.3 ETL測試場景143
6.3本章小結147
D 7章大數據工具實踐148
7.1大數據測試工具148
7.1.1大數據測試的痛點148
7.1.2大數據測試工具easy_data_test的設計149
7.1.3大數據測試工具easy_data_test的使用152
7.1.4大數據測試工具展望157
7.2數據質量監控平台157
7.2.1數據質量把控環節158
7.2.2數據質量評估要點158
7.2.3數據質量監控平台設計159
7.3數據調度平台163
7.3.1調度系統概述163
7.3.2 Azkaban概述163
7.3.3 Azkaban實踐164
7.4本章小結168
D三部分模型測試
D 8章機器學習測試基礎170
8.1機器學習生命週期170
8.2機器學習測試難點173
8.3機器學習測試重點174
8.4模型工程服務測試176
8.4.1單元測試177
8.4.2集成測試178
8.4.3系統測試179
8.5 A/B測試180
8.5.1 A/B測試180
8.5.2做A/B測試的原因181
8.5.3 A/B測試在機器學習模型中的應用181
8.6本章小結182
D 9章特徵專項測試184
9.1特徵工程簡介184
9.1.1數據探索184
9.1.2數據預處理185
9.1.3特徵構建190
9.1.4特徵選擇190
9.2特徵測試方法191
9.2.1特徵指標分析191
9.2.2特徵穩定性測試198
9.3特徵測試實踐199
9.3.1特徵指標分析實踐199
9.3.2特徵可視化實踐203
9.3.3特徵穩定性測試實踐207
9.3.4特徵監控實踐211
9.4本章小結212
D 10章模型算法評估測試213
10.1模型算法評估基礎213
10.1.1模型算法評估概述213
10.1.2樣本數據劃分策略214
10.1.3統計學指標與統計圖216
10.1.4模型算法評估指標217
10.2模型算法的測試方法223
10.2.1模型蛻變測試223
10.2.2模型模糊測試226
10.2.3模型魯棒性測試227
10.2.4模型安全測試229
10.2.5模型可解釋性測試230
10.2.6模型在線測試233
10.2.7模型監控與迭代234
10.3不同應用場景下模型算法的評測235
10.3.1圖像分類應用場景下的模型算法評測235
10.3.2推薦應用場景下的模型算法評測236
10.3.3金融風控應用場景下的模型算法評測239
10.4本章小結241
D四部分模型工程
D 11章模型評估平台實踐244
11.1模型評估平台背景244
11.2模型評估平台的設計245
11.2.1平台需求分析245
11.2.2平台架構設計246
11.3模型評估平台展示253
11.3.1模型配置規則253
11.3.2模型評估指標255
11.3.3模型評估報告261
11.4模型評估平台z結263
11.4.1回顧264
11.4.2展望265
11.5本章小結266
D 12章機器學習工程技術267
12.1機器學習平台概述267
12.1.1機器學習平台發展歷程267
12.1.2主流的機器學習平台269
12.1.3機器學習平台的建設270
12.2數據與建模工程技術272
12.2.1數據採集272
12.2.2數據存儲272
12.2.3數據加工273
12.2.4樣本數據274
12.2.5特徵工程275
12.2.6模型構建275
12.3模型部署工程技術279
12.3.1模型部署概述279
12.3.2模型發布方式279
12.3.3模型線上監控284
12.4本章小結286
D 13章機器學習的持續交付287
13.1機器學習持續交付的介紹與定義287
13.1.1持續交付287
13.1.2機器學習持續交付的定義289
13.2機器學習持續交付的主要挑戰290
13.2.1組織流程的挑戰290
13.2.2複雜技術的挑戰292
13.3如何構建機器學習管道292
13.3.1機器學習管道概述293
13.3.2構建機器學習管道293
13.3.3 Pipeline(管道)設計的關注點307
13.3.4 Pipeline的技術組件307
13.4本章小結309
D五部分AI In Test
D 14章AI在測試領域的探索與實踐312
14.1測試發展面臨的挑戰312
14.2 AI在測試領域的應用及優勢313
14.3業界智能化測試案例介紹314
14.3.1 AI在測試效能方面的探索315
14.3. 2 AI在自動化測試方面的實踐317
14.4主流AI測試工具簡介320
14.5本章小結322
D 15章AI時代測試工程師的未來324
15.1 AI對測試未來發展的影響324
15.2 AI時代測試工程師的定位325
15.3測試工程師的AI學習路線326
15.4本章小結328
參考文獻329


作者介紹


艾輝
中國人民大學統計學院碩士,融360 高級技術經理。
主要負責機器學習產品的質量保障工作,曾在餓了麼公司擔任高級技術經理,
負責用戶產品、新零售產品的質量保障工作。
有8 年多的測試開發工作經驗,曾多次受邀在行業技術大會( 如MTSC、GITC、NCTS、TiD、A2M 等)上做主題分享。
對大數據、機器學習測試技術有深刻的理解,並長期專注於質量保障與工程效能研究。
陳高飛
東北大學計算機碩士,融360 測試開發工程師。
主要從事機器學習方面的測試開發工作。
擅長白盒測試、大數據測試和模型測試,在工具平台開發方面有豐富的實踐經驗。
陳花
北京郵電大學信息通信工程學院碩士,融360 高級測試開發工程師。
主要從事服務器端測試開發工作,主導過多個大型項目的測試。
擅長白盒測試、安全測試、自動化測試及工具開發。
方娟紅
東北大學計算機碩士,融360 測試開發工程師。
主要從事服務器端測試開發工作。
在企業級應用的測試和開發方面有著豐富的實踐經驗。
郭學敏
西安電子科技大學電子工程學院碩士,融360 測試開發工程師。
主要負責機器學習方面的測試開發工作,主導過多個大型項目的測試。
擅長大數據測試、特徵分析與模型評估,且在特徵工程測試方面有著豐富的實踐經驗。
郝嶸
北京信息科技大學自動化學院碩士,融360 測試開發工程師。
從事Python 開發、機器學習測試、大數據測試工作多年,
在大數據的質量保障及測試工具開發方面有著豐富的實踐經驗。
雷天鳴
哈爾濱理工大學計算機科學與技術系碩士,融360 測試開發工程師。
主要從事機器學習方向的測試開發工作。
擅長大數據測試、特徵測試及模型算法評測等,且對金融風控業務有深刻的理解。
李曼曼
融360 高級測試開發工程師。
有近10 年測試領域從業經驗, 擅長白盒測試、性能測試、自動化測試、持續集成及工程效能。
在AI 測試方面有一定的探索實踐。
李雪
西安電子科技大學通信工程碩士,融360 測試開發工程師。
主要從事平台及機器學習方面的測試開發工作。
擅長自動化測試、性能測試及安全測試,且對特徵測試分析有著豐富的實踐經驗。
孫金娟
山西財經大學計算機科學與技術專業學士,融360 測試開發工程師。
有近8 年Java 開發、測試開發工作經驗,擅長大數據測試及工具平台開發。
張海霞
中國人民大學統計學院碩士,融360 高級測試開發工程師。
有近7 年測試領域從業經驗,擅長白盒測試、性能測試及自動化測試。
在測試平台開發方面有著豐富的實踐經驗,且對數據挖掘技術有紮實的實踐積累。
張咪
北京交通大學通信學院碩士,融360 高級測試開發工程師。
主要負責用戶產品的質量保障工作。
曾負責基礎架構、運維自動化等方面的測試、開發工作。
在自動化測試、服務穩定性、專項測試、
工程效能等方面有著豐富的實踐經驗,且對機器學習工程技術有深刻的理解。
張朋週
中國地質大學計算機碩士,融360 高級測試開發工程師。
曾在RAISECOM 和百度從事測試開發工作,有近8 年的測試工作經驗。
目前主要負責機器學習方面的測試開發工作,主導了多個工具平台的開發,
在模型評估平台方面有著豐富的實踐經驗。




相關書籍

Tableau 商業分析從新手到高手

作者 美智訊 (Bizinsight)

2020-10-01

從1開始:數據分析師成長之路

作者 張旭東

2020-10-01

初學 Python 的第一本書 : 從基本語法到模組應用(iT邦幫忙鐵人賽系列書)

作者 林志瑜

2020-10-01