大數據導論

大數據導論

作者: 安俊秀 靳宇倡 等
出版社: 人民郵電
出版在: 2020-08-01
ISBN-13: 9787115537041
ISBN-10: 7115537046
裝訂格式: 平裝
總頁數: 180 頁





內容描述


本書是高校的大數據導論課程教材,清楚地介紹了大數據相關的概念、理論、術語與基礎技術,並使用真實連貫的商業案例以及簡單的圖表,幫助讀者更清晰地理解大數據技術。本書可作為高等院校相關專業“大數據基礎”“大數據導論”等課程的教材,也可供有一定實踐經驗的軟件開發人員、管理人員和所有對大數據感興趣的人士閱讀。


目錄大綱


第1章 大數據概述 1
1.1 什麽是大數據 1
1.1.1 大數據的來源 1
1.1.2 大數據的定義 5
1.1.3 從信息技術(IT)轉向數據
技術(DT) 5
1.2 大數據的數據特徵及對科學研究的
影響 7
1.2.1 大數據的數據特徵 7
1.2.2 大數據對科學研究的影響 8
1.3 大數據的數據類型 11
1.4 大數據的價值及相關技術 13
1.4.1 大數據的可用性及衍生
價值 13
1.4.2 大數據存儲及處理技術 14
1.5 大數據的發展趨勢 15
習題 16
第2章 大數據與雲計算 17
2.1 雲計算概述 17
2.1.1 雲計算的提出 17
2.1.2 雲計算的定義 18
2.1.3 雲計算的概念模型 19
2.1.4 雲計算的特點 20
2.2 雲計算的主要部署模式 21
2.2.1 公有雲 22
2.2.2 私有雲 22
2.2.3 混合雲 23
2.3 雲計算的主要服務模式 24
2.3.1 基礎設施即服務(IaaS) 24
2.3.2 平臺即服務(PaaS) 26
2.3.3 軟件即服務(SaaS) 26
2.3.4 3種服務模式之間的關系 27
2.4 雲計算與大數據體系架構的關系 28
2.4.1 雲計算基礎設施—
Google平臺 28
2.4.2 大數據基礎設施—
Hadoop平臺 29
2.5 物聯網、大數據和雲計算之間的
關系 30
2.5.1 認識物聯網 31
2.5.2 邊緣計算 31
2.5.3 霧計算 33
2.5.4 大數據和雲計算之間的
關系 33
習題 34
第3章 從產業結構來探索大數據技術 35
3.1 大數據產業結構概述 35
3.2 大數據的解決方案 37
3.2.1 大數據的產生、採集與處理
方式 37
3.2.2 大數據處理的基本流程及
相應技術 40
3.3 大數據採集技術 43
3.3.1 大數據採集概述 43
3.3.2 日誌採集系統—Flume 44
3.3.3 消息採集系統—Kafka 46
3.3.4 Scrapy網絡爬蟲框架 47
3.4 大數據預處理技術 50
3.4.1 數據預處理 50
3.4.2 數據清洗 51
3.4.3 數據集成 53
3.4.4 數據歸約 54
3.5 大數據可視化技術 56
3.5.1 數據可視化的概念 56
3.5.2 數據可視化的分類 57
3.5.3 數據可視化工具 61
3.5.4 大數據可視化技術的
發展方向 63
習題 64
第4章 大數據的硬件架構——集群 65
4.1 集群的來源 65
4.1.1 並行電腦的發展 65
4.1.2 通過電腦食物鏈理解
集群 68
4.2 集群的產生促進了大數據技術的
發展 70
4.3 集群系統的概念及分類 72
4.3.1 集群的基本概念 72
4.3.2 集群系統的分類 73
4.4 集群的結構模型 75
4.5 集群文件系統 76
習題 79
第5章 大數據開發與計算技術 80
5.1 Hadoop—分佈式大數據系統 80
5.1.1 Hadoop概述 80
5.1.2 Hadoop架構 81
5.1.3 Hadoop生態系統 87
5.2 Spark—大規模數據實時處理
系統 89
5.2.1 Spark概述 89
5.2.2 彈性分佈式數據集 94
5.2.3 Spark擴展功能 96
5.3 Storm—基於拓撲的流數據實時
計算系統 99
5.3.1 Storm概述 99
5.3.2 Storm的組成結構 101
5.3.3 Storm-Yarn概述 102
5.4 Hadoop、Spark與Storm的比較 103
5.5 大數據開發技術與Web應用
開發技術的比較 105
5.5.1 Web應用開發技術簡介 105
5.5.2 大數據開發技術簡介 109
5.5.3 大數據開發技術與Web應用
開發技術的應用環境 110
習題 112
第6章 大數據存儲技術 113
6.1 數據存儲概述 113
6.2 分佈式文件系統 115
6.2.1 分佈式文件系統的設計
思路 116
6.2.2 最早的分佈式文件系統 118
6.2.3 大數據環境下分佈式文件
系統的優化思路 119
6.3 結構化大數據的存儲—Hive 120
6.3.1 Hive簡介 120
6.3.2 Hive架構 121
6.3.3 Hive數據模型與存儲 122
6.4 半結構化大數據的存儲—HBase 124
6.4.1 HBase簡介 124
6.4.2 HBase數據模型 125
6.4.3 存儲架構 127
6.5 雲存儲技術 134
6.5.1 雲存儲的概念及特性 134
6.5.2 雲存儲系統的結構模型 136
6.5.3 雲存儲的應用 138
習題 139
第7章 大數據分析 141
7.1 大數據分析與數據分析的關系 141
7.1.1 對數據分析師的要求 142
7.1.2 對大數據分析師的要求 142
7.2 大數據分析的重要性及認識數據 143
7.2.1 大數據分析的重要性 143
7.2.2 認識數據 145
7.3 統計數據分析 147
7.4 基於機器學習的數據分析 151
7.4.1 機器學習簡介 151
7.4.2 機器學習的主要用途 153
7.4.3 有監督學習、無監督學習和
強化學習 154
7.5 經典的機器學習算法 157
7.5.1 分類算法原理 157
7.5.2 決策樹分類算法 157
7.5.3 K-均值聚類算法 158
7.5.4 Apriori關聯規則算法 159
7.5.5 樸素貝葉斯分類算法 159
7.6 基於圖的數據分析 161
7.7 基於自然語言的數據分析 162
習題 163
 第8章 大數據與人工智能 164
8.1 人工智能的概念及分類 164
8.2 人工智能的發展史 168
8.3 限制人工智能發展的因素 170
8.4 大數據與人工智能的關系 172
8.5 人工智能核心技術概述 173
8.5.1 深度學習 174
8.5.2 捲積神經網絡 175
8.5.3 圖像處理 176
8.6 人工智能技術應用 177
習題 179
參考文獻 180


作者介紹


安俊秀毕业于西安交通大学计算机科学与技术专业,获工学硕士学位。中国计算机学会高级会员;中国电子学会高级会员;成都市科技攻关计划评审专家;成都军区项目评审专家;汕尾市科技顾问团首席顾问。 先后承担了《Linux体系和编程》、《软件项目管理》、《工程导论》、《计算机组成原理》等本科课程;承担了《云计算与大数据》、《并行计算》、《Hadoop处理技术》等研究生课程。 在科研方面,一直从事云计算与大数据、信息智能搜索与计算社会方面的研究工作。近三年发表论文20余篇,其中第一作者10余篇,核心期刊以上占5篇。编写出版了多本教材。




相關書籍

Jump Start JavaScript (Paperback)

作者 Ara Pehlivanian Don Nguyen

2020-08-01

HTML5移動開發

作者 埃斯特爾·韋爾 (Estelle Weyl)

2020-08-01

ASP.NET Core 與 RESTful API 開發實戰

作者 楊萬青

2020-08-01