大數據測試技術與實踐(全彩印刷)

大數據測試技術與實踐(全彩印刷)

作者: 艾輝 主編 融360 AI測試團隊
出版社: 人民郵電
出版在: 2021-10-01
ISBN-13: 9787115571861
ISBN-10: 7115571864
裝訂格式: 平裝
總頁數: 275 頁





內容描述


本書全面系統地介紹了大數據的測試技術與質量體系建設。本書共11章,第1~4章涵蓋認識大數據,大數據技術生態,數據倉庫的設計與構建,以及大數據項目開發流程;第5~7章講解大數據測試方法、大數據測試實踐和數據質量管理;第8~10章介紹大數據測試平臺實踐、數據治理平臺建設,以及DataOps的理念與實踐;第11章提供大數據測試學習路線。附錄列出了大數據技術經典面試題。
本書適合想要瞭解大數據技術的讀者,以及想要學習和掌握大數據測試與大數據開發的從業者。通過閱讀本書,測試工程師可以系統地學習大數據技術基礎、大數據開發和大數據測試等知識;大數據開發工程師可以借鑒大數據質量保障的方法,拓寬數據工程實踐的思路;技術專家和技術管理者可以瞭解大數據質量保障體系、數據治理建設和DataOps實踐等內容。


目錄大綱


第1章 認識大數據/1
1.1 大數據概述/1
1.2 大數據的發展/2
1.3 大數據的應用/4
1.3.1 互聯網領域/4
1.3.2 物流領域/5
1.3.3 教育領域/6
1.3.4 金融領域/7
1.3.5 電信領域/7
1.4 本章小結/8
第2章 大數據技術生態/9
2.1 大數據技術生態總覽/9
2.2 大數據採集技術/10
2.3 大數據存儲技術/10
2.3.1 分佈式文件系統:HDFS/10
2.3.2 海量數據列式存儲: HBase/13
2.3.3 其他數據存儲技術/18
2.4 大數據計算分析技術/19
2.4.1 批處理計算的基石:MapReduce/19
2.4.2 流計算的代表:Storm、Spark Streaming和Flink/21
2.4.3 OLAP引擎:Hive、Impala和Presto/24
2.5 大數據管理調度技術/30
2.5.1 分佈式集群資源調度框架:YARN/30
2.5.2 容器集群管理系統:Kubernetes/32
2.5.3 大數據的“動物園管理員”:ZooKeeper/33
2.5.4 常用的工作流調度平台:Azkaban、Oozie和Airflow/34
2.6 大數據商業產品/36
2.7 本章小結/38
第3章 數據倉庫的設計與構建/39
3.1 數據倉庫概述/39
3.1.1 什麼是數據倉庫/39
3.1.2 數據倉庫的發展過程/41
3.1.3 數據倉庫與數據集市、數據湖、數據中台的區別/43
3.2 數據倉庫設計/44
3.2.1 架構分層設計/44
3.2.2 數據模型設計/46
3.3 數據倉庫構建/50
3.3.1 數據倉庫的構建方法與評價標準/50
3.3.2 數據倉庫實例/51
3.4 本章小結/58
第4章 大數據項目開發流程/59
4.1 大數據項目開發概覽/59
4.2 數據的採集與存儲/60
4.2.1 服務端日誌採集/61
4.2.2 客戶端日誌採集/62
4.2.3 數據同步/64
4.2.4 大數據存儲/66
4.3 大數據計算/67
4.4 大數據監控/71
4.4.1 數據監控/71
4.4.2 運維監控/72
4.5 大數據項目開發案例/73
4.5.1 項目背景介紹/74
4.5.2 項目需求分析/74
4.5.3 項目開發流程/76
4.6 本章小結/83
第5章 大數據測試方法/84
5.1 大數據測試概述/84
5.1.1 什麼是大數據測試/84
5.1.2 大數據測試與傳統數據測試/84
5.2 大數據測試類型/85
5.2.1 功能測試/85
5.2.2 性能測試/89
5.2.3 其他非功能性測試/93
5.3 大數據測試流程/94
5.4 大數據基準測試/96
5.4.1 大數據基準測試簡介/97
5.4.2 大數據基準測試的步驟/97
5.4.3 大數據基準測試工具/98
5.5 大數據ETL測試/100
5.5.1 大數據ETL測試類型/100
5.5.2 大數據ETL測試場景/103
5.5.3 大數據ETL測試工具/107
5.6 大數據測試總結/108
5.6.1 大數據測試中的典型問題/108
5.6.2 大數據測試經驗總結/112
5.6.3 大數據測試面臨的挑戰/113
5.7 本章小結/113
第6章 大數據測試實踐/114
6.1 BI報表測試/114
6.1.1 BI工具簡介/114
6.1.2 Tableau簡介/115
6.1.3 BI報表測試實踐/120
6.2 數據挖掘產品測試/128
6.2.1 數據挖掘的定義和流程/128
6.2.2 數據挖掘產品簡介/129
6.2.3 數據挖掘產品測試實踐/130
6.3 用戶行為分析平台測試/139
6.3.1 用戶行為分析平台測試概覽/139
6.3.2 數據採集階段測試/140
6.3.3 實時數據處理階段測試/140
6.3.4 離線數據處理階段測試/153
6.3.5 數據查詢展示階段測試/153
6.4 本章小結/156
第7章 數據質量管理/157
7.1 數據質量管理概述/157
7.2 數據質量管理流程/158
7.2.1 建立數據質量管理辦法/159
7.2.2 制定數據標準/161
7.2.3 數據質量自查評估/162
7.2.4 數據質量問題修復/170
7.3 本章小結/173
第8章 大數據測試平台實踐/174
8.1 大數據測試平台背景/174
8.2 大數據測試的開源技術調研/175
8.2.1 great_expectations/176
8.2.2 WeBankFinTech Qualitis/178
8.3 大數據測試的商業方案分析/181
8.3.1 QuerySurge/182
8.3.2 RightData/184
8.4 從零開始搭建大數據測試平台/186
8.4.1 需求分析/187
8.4.2 架構設計/187
8.4.3 功能實現/189
8.4.4 頁面演示/196
8.4.5 總結和展望/201
8.5 本章小結/203
第9章 數據治理平台建設/204
9.1 數據治理概述/204
9.1.1 數據治理的基本概念/204
9.1.2 數據治理的重要意義/205
9.1.3 數據治理面臨的主要挑戰/206
9.1.4 如何開展數據治理/206
9.2 數據治理平台體系/207
9.3 元數據管理平台/208
9.3.1 平台產生背景/208
9.3.2 平台架構/208
9.3.3 模塊設計:數據採集/209
9.3.4 模塊設計:數據查詢/212
9.3.5 模塊設計:數據分析/214
9.4 數據質量監控平台/219
9.4.1 平台產生背景/219
9.4.2 平台架構/220
9.4.3 模塊設計:規則引擎/221
9.4.4 模塊設計:任務中心/230
9.4.5 模塊設計:報警系統 /230
9.5 本章小結/232
第10章 DataOps的理念與實踐/233
10.1 DataOps概述/233
10.1.1 什麼是DataOps/233
10.1.2 為什麼需要DataOps/235
10.1.3 DataOps與DevOps、MLOps的聯繫和區別/237
10.2 DataOps的能力與特性/239
10.2.1 數據工程/239
10.2.2 數據集成/240
10.2.3 數據安全和數據隱私保護/241
10.2.4 數據質量/242
10.2.5 DataOps的4個特性/243
10.3 DataOps技術實踐/244
10.3.1 DataOps技術工具/245
10.3.2 數據管道技術示例/246
10.4 本章小結/253
第11章 大數據測試的學習路線和發展趨勢/254
11.1 為什麼學習大數據測試/254
11.2 如何學習大數據測試/255
11.2.1 大數據測試的學習路線/255
11.2.2 大數據測試的技能圖譜/259
11.3 大數據測試的發展趨勢/269
11.4 本章小結/270
附錄 大數據技術經典面試題/271
參考文獻/276


作者介紹


艾輝,中國人民大學概率論與數理統計專業碩士,《機器學習測試入門與實踐》作者之一。
目前,擔任融360技術總監,主要負責AI風控產品、用戶產品和基礎架構的質量保障工作。曾在阿里本地生活擔任高級技術經理,負責用戶產品、新零售產品的質量保障工作。擁有9年多的測試開發工作經驗,曾多次受邀在行業技術大會(如MTSC、GITC、Top100、TiD、A2M和TICA等)上做主題分享。對大數據、機器學習測試技術有深刻理解,並長期專注於質量保障與工程效能領域。

陳高飛,東北大學計算機技術專業碩士,《機器學習測試入門與實踐》作者之一。
目前,擔任融360測試開發工程師,主要從事機器學習方向的測試開發工作。擅長白盒測試、大數據測試和模型測試,在工具平台開發方面有豐富的實踐經驗。

郝嶸,北京信息科技大學自動化專業碩士,《機器學習測試入門與實踐》作者之一。
目前,擔任融360高級測試開發工程師,主要負責大數據方向的測試開發工作。擅長Python開發、大數據測試和機器學習測試,主導了多個工具平台的開發,在大數據質量保障方面有豐富的實踐經驗。

雷天鳴,哈爾濱理工大學計算機科學與技術專業碩士,《機器學習測試入門與實踐》作者之一。
目前,擔任融360測試開發工程師,主要從事機器學習方向的測試開發工作。擅長大數據測試、特徵測試和模型算法評測等,對金融風控業務有深刻理解。

李曼曼,融360高級測試開發工程師,《機器學習測試入門與實踐》作者之一。
擁有近11年的測試開發工作經驗,主導了多個工具平台的開發和大型項目的測試工作。擅長白盒測試、性能測試、自動化測試、持續集成和工程效能,在大數據和特徵模型測試方面有豐富的實踐經驗。

馬綿,陝西科技大學網絡工程專業學士,融360測試開發工程師。目前主要從事服務端測試開發工作,擅長自動化測試、安全測試,在服務穩定性保障方面有豐富的實踐經驗。

孫冰妍,東北大學通信與信息系統專業碩士,融360測試開發工程師。目前主要從事服務端測試開發工作,擅長白盒測試、自動化測試、性能測試、安全測試和持續集成。參與了多個工具平台的開發,並主導了多個大型項目的測試工作。對大數據測試技術有深刻理解。

孫金娟,山西財經大學計算機科學與技術專業學士,《機器學習測試入門與實踐》作者之一。目前,擔任融360測試開發工程師,有近9年的Java開發、測試開發工作經驗。擅長大數據測試和工具平台開發,對機器學習、特徵模型測試有深刻理解。

張咪,北京交通大學通信與信息系統專業碩士,《機器學習測試入門與實踐》作者之一。目前,擔任融360測試經理,主要負責用戶產品的質量保障工作,曾負責基礎架構、SRE(Site Reliability Engineering,網站可靠性工程)等方面的測試開發工作。在自動化測試、服務穩定性、專項測試和工程效能等方面有豐富的實踐經驗,曾受邀在行業技術大會(如MTSC、A2M等)做主題分享。對大數據、機器學習測試有深刻的理解,並在這些領域擁有豐富的實踐經驗。

張朋週,中國地質大學計算機科學與技術專業碩士,《機器學習測試入門與實踐》作者之一。目前,擔任融360高級測試開發工程師,曾在百度從事搜索業務測試開發,有近9年的開發測試工作經驗。目前,主要負責機器學習方向的測試開發工作,主導了多個工具平台的開發,在數據質量保障、模型評估平台方面有豐富的實踐經驗。




相關書籍

EXT JS 實戰, 2/e (Ext JS in Action, 2/e)

作者 [美]加西亞 格麗索戈諾 安德烈森

2021-10-01

揭秘 Angular, 2/e

作者 廣發證券互聯網金融技術團隊

2021-10-01

可測試的 JavaScript (Testabe Javascript)

作者 Mark Ethan Trostler 陳仁和 譯

2021-10-01