大數據技術與應用導論
內容描述
本著“以小見大、實踐為先”的理念,在工業大數據的背景下,本書闡述了數據的“前世今生”與內涵、外延,
深入淺出地梳理了數據處理的各個階段及典型框架,內容包括大數據採集、
大數據預處理、大數據存儲、大數據分析與可視化等,同時還介紹了大數據技術的典型應用。
本書注重學科基礎上的知識體係與實踐能力,適合作為數據科學相關專業學生的導論教材,
也可作為信息類其他專業學生的通識教材,以培養學生的數據思維意識。
目錄大綱
目 錄
前 言
第1章 認識大數據 1
1.1 信息爆炸 1
1.1.1 大數據時代 1
1.1.2 數據、信息與知識 2
1.1.3 數據的來源 3
1.2 大數據的概念與特徵 4
1.2.1 大數據的概念 4
1.2.2 大數據的特徵 4
1.2.3 大數據的類型 5
1.3 大數據的技術架構及處理技術 6
1.3.1 大數據的技術架構 6
1.3.2 大數據的處理技術 7
1.4 大數據處理的集成平台 7
1.5 工業大數據 8
1.5.1 工業大數據及其特徵 8
1.5.2 工業大數據技術及應用 9
1.5.3 工業大數據面臨的挑戰 10
本章小結 12
閱讀材料:啤酒與尿布 12
習題 12
第2章 大數據學科與職業 13
2.1 大數據學科 13
2.2 大數據專業人才培養方案 14
2.3 大數據職業道德 16
本章小結 18
閱讀材料:道格 切特 18
習題 19
第3章 大數據生態系統 20
3.1 大數據生態系統概述 20
3.2 並行與分佈式處理 21
3.2.1 並行處理 21
3.2.2 分佈式處理 22
3.3 Hadoop 22
3.3.1 Hadoop概述 22
3.3.2 Hadoop生態圈 25
3.4 Spark 25
3.4.1 Spark概述 25
3.4.2 Spark生態圈 26
3.5 Storm 26
3.5.1 Storm概述 27
3.5.2 Storm集群架構與工作流程 27
本章小結 28
閱讀材料:南森 馬茨 28
習題 29
第4章 大數據採集與預處理 30
4.1 大數據採集與預處理概述 30
4.1.1 大數據採集技術 30
4.1.2 大數據預處理技術 32
4.2 大數據採集方法及工具 33
4.2.1 網絡數據採集方法 33
4.2.2 系統日誌採集方法 36
4.2.3 科研數據採集方法 40
4.2.4 關係型數據庫數據採集方法 42
4.3 大數據預處理方法及工具 43
4.3.1 數據清洗 43
4.3.2 數據集成 45
4.3.3 數據歸約 46
4.3.4 數據變換 49
本章小結 53
閱讀材料:園中有金 53
習題 53
第5章 大數據存儲 54
5.1 集中式存儲與分佈式存儲 54
5.2 非結構化數據庫 55
5.2.1 NewSQL 56
5.2.2 雲數據庫 56
5.2.3 HBase 57
5.2.4 MongoDB 58
5.3 數據倉庫與OLAP 59
5.3.1 概述 59
5.3.2 基本架構 60
5.3.3 典型應用 62
本章小結 62
閱讀材料:盤古系統 63
習題 63
第6章 大數據分析 64
6.1 大數據分析與商業智能 64
6.1.1 大數據與大數據分析 65
6.1.2 大數據分析的種類 66
6.2 大數據統計分析 67
6.2.1 分類問題 68
6.2.2 回歸問題 72
6.2.3 聚類問題 74
6.2.4 人工神經網絡 75
6.2.5 數據建模 80
6.3 大數據分析的應用與挑戰 80
6.3.1 Web挖掘 81
6.3.2 文本挖掘 84
6.3.3 社會網絡分析 87
6.3.4 智能製造中的數據分析 89
本章小結 89
閱讀材料:貝葉斯 89
習題 90
第7章 大數據可視化 91
7.1 數據可視化概述 91
7.1.1 數據可視化的特點 91
7.1.2 數據可視化的典型應用 92
7.2 數據可視化的常用工具 92
7.2.1 Tableau 92
7.2.2 Matplotlib 93
7.2.3 ECharts 94
本章小結 95
閱讀材料:馬克 扎克伯格 95
習題 96
第8章 大數據技術的典型應用 97
8.1 案例一:大型工業設備實時監測系統 97
8.1.1 集群部署與配置 97
8.1.2 數據表結構 101
8.2 案例二:基於MapReduce的薪資核算 102
參考文獻 107