Hadoop 大數據實戰權威指南, 2/e

Hadoop 大數據實戰權威指南, 2/e

作者: 黃東軍
出版社: 電子工業
出版在: 2019-09-01
ISBN-13: 9787121370335
ISBN-10: 7121370336





內容描述


基於"深入分析組件原理、充分展示搭建過程、詳細指導應用開發”的理念,以最新版Hadoop及其生態組件為對象,採用理論與應用高度融合的方法,介紹大數據的概念、技術、方法、應用、以及項目開發。全書分為三篇,第一篇為大數據的基本概念和技術綜述,第二篇為平臺搭建與基本應用,內容設計Linux、HDFS、MapReduce、Yarn、Hive、HBase、Sqoop、Kafka、Spark、Phoenix等;第三篇為數據處理與項目開發,綜合運用各類組件進行實際數據處理,包括交互式應用、決策、推薦算法、銷售數據分析系統等。


目錄大綱


第一篇大數據的基本概念和技術1
第1章緒論3
1.1大數據的時代背景3
1.1.1全球大數據浪潮3
1.1.2我國的大數據戰略5
1.2大數據的基本概念和特徵6
1.2 .1基本概念6
1.2.2基本特徵7
1.3大數據系統的技術支撐體系7
1.3.1技術支撐體系概覽7
1.3.2大數據系統的採集層8
1.3.3大數據系統的存儲層9
1.3. 4大數據系統的分析層9
1.3.5大數據系統的應用層9
1.3.6大數據系統的垂直層10
1.4大數據領域的主要職位及其能力要求11
1.4.1首席數據官11
1.4.2數據科學家11
1.4.3大數據開發工程師12
1.4.4大數據運維工程師13
1.5本章小結13
第2章Hadoop大數據關鍵技術15
2.1 Hadoop大數據應用生態系統15
2.1.1架構的基本理論15
2.1.2 Hadoop大數據應用生態系統的主要組件及其關係16
2.2大數據採集技術19
2.2.1結構化數據採集工具19
2.2.2日誌收集工具與技術20
2.3大數據存儲技術23
2.3.1相關概念23
2.3.2分佈式存儲系統27
2.3.3數據庫(HBase)與數據倉庫( Hive) 30
2.4分佈式計算框架35
2.4.1離線計算框架35
2.4.2實時流計算平台40
2.5數據分析平台與工具45
2.5.1面向大數據的數據挖掘與分析工具45
2.5.2機器學習49
2.6本章小結52
第二篇Hadoop大數據平台搭建與基本應用55
第3章Linux操作系統與集群搭建57
3.1 Linux操作系統57
3.1.1概述57
3.1.2特點58
3.1.3 Linux操作系統的組成59
3.2 Linux集群的搭建62
3.2.1安裝VMware Workstation 62
3.2.2在VMware Workstation Pro 12上安裝Linux(CentOS 7) 65
3.3集群的配置77
3.3.1設置主機名77
3.3.2網絡設置79
3.3.3關閉防火牆83
3.3.4安裝JDK 84
3.3.5免密鑰登錄配置87
3.4 Linux基本命令89
3.5本章小結96
第4章HDFS安裝與基本應用97
4.1 HDFS概述97
4.1.1特點97
4.1.2主要組件與架構97
4.2 HDFS架構分析98
4.2.1數據塊98
4.2.2 NameNode 98
4.2.3 DataNode 99
4.2.4 SecondaryNameNode 100
4.2.5數據備份100
4.2.6通信協議101
4.2.7可靠性保證101
4.3文件操作過程分析101
4.3.1讀文件101
4.3.2寫文件102
4.3.3刪除文件103
4.4 Hadoop的安裝與配置104
4.4.1解壓Hadoop安裝包104
4.4.2配置Hadoop環境變量105
4.4.3配置Yarn環境變量106
4.4.4配置核心組件106
4.4.5配置文件系統107
4.4.6配置yarn site.xml文件108
4.4.7配置MapReduce計算框架文件109
4.4.8配置Master中的workers文件111
4.4.9將Master上的Hadoop複製到Slave 111
4.5 Hadoop集群的啟動112
4.5. 1配置操作系統的環境變量112
4.5.2創建Hadoop數據目錄113
4.5.3格式化文件系統113
4.5.4啟動和關閉Hadoop 114
4.5.5驗證Hadoop是否成功啟動115
4.6 Hadoop集群的基本應用117
4.6. 1 HDFS基本命令117
4.6.2在Hadoop集群中運行程序120
4.7本章小結122
第5章MapReduce與Yarn 123
5.1 MapReduce程序的概念123
5.1.1基本編程模型123
5.1.2計算過程分析124
5.2深入理解Yarn 126
5.2.1 Yarn的基本架構126
5.2.2 Yarn的工作流程130
5.3在Linux平台安裝Eclipse 130
5.3.1 Eclipse簡介130
5.3. 2安裝並啟動Eclipse 131
5.4開發MapReduce程序的基本方法133
5.4.1為Eclipse安裝Hadoop插件133
5.4.2 WordCount:第一個MapReduce程序137
5.5本章小結150
第6章Hive和HBase的安裝與應用151
6.1在CentOS 7下安裝MySQL 151
6.1.1下載或複制MySQL安裝包151
6.1.2執行安裝命令152
6.1.3啟動MySQL 153
6.1.4登錄MySQL 153
6.1.5使用MySQL 154
6.1.6問題與解決辦法156
6.2 Hive安裝與應用157
6.2.1下載並解壓Hive安裝包158
6.2.2配置Hive 158
6.2.3啟動並驗證Hive 161
6.2.4 Hive的基本應用162
6.3 ZooKeeper集群安裝163
6.3.1 ZooKeeper簡介163
6.3.2安裝ZooKeeper 164
6.3.3配置ZooKeeper 165
6.3.4啟動和測試166
6.4 HBase的安裝與應用168
6.4.1解壓並安裝HBase 168
6.4.2配置HBase 169
6.4.3啟動並驗證HBase 171
6.4.4 HBase的基本應用173
6.4.5 HBase應用中常見問題及其解決辦法175
6.5本章小結176
第7章Sqoop和Kafka的安裝與應用177
7.1安裝部署Sqoop 177
7.1.1下載或複制Sqoop安裝包177
7.1.2解壓並安裝Sqoop 177
7.1.3配置Sqoop 178
7.1.4啟動並驗證Sqoop 180
7.1. 5測試Sqoop與MySQL的連接180
7.2安裝部署Kafka集群182
7.2.1下載或複制Kafka安裝包182
7.2.2解壓縮Kafka安裝包182
7.2.3配置Kafka集群183
7.2.4 Kafka的初步應用184
7.3本章小結188
第8章Spark集群的安裝與開發環境的配置189
8.1深入理解Spark 189
8.1.1 Spark的系統架構189
8.1.2 Spark的關鍵概念191
8.2 Scala的安裝與配置193
8.2.1下載Scala安裝包194
8.2.2安裝Scala 194
8.2.3啟動並應用Scala 195
8.3 Spark集群的安裝與配置195
8.3 .1安裝模式195
8.3.2 Spark的安裝196
8.3.3啟動並驗證Spark 198
8.3.4幾點說明202
8.4 IDEA開發環境的安裝與配置203
8.4.1 IDEA簡介203
8.4.2 IDEA的安裝204
8.4 .3 IDEA的配置205
8.5本章小結208
第9章Spark應用基礎209
9.1 Spark應用程序的運行模式209
9.1.1 Spark on Yarn-cluster- 209
9.1.2 Spark on Yarn-client 210
9.2 Spark的應用設計211
9.2.1分佈式估算圓周率211
9.2.2基於Spark MLlib的貸款風險預測226
9.3本章小結242
第三篇大數據處理與項目開發243
第10章交互式數據處理245
10.1數據預處理245
10.1.1查看數據245
10.1.2數據擴展247
10.1.3數據過濾247
10.1.4數據上傳248
10.2創建數據倉庫249
10.2.1創建Hive數據倉庫的基本命令249
10.2.2創建Hive分區表251
10.3數據分析253
10.3.1基本統計253
10.3.2用戶行為分析254
10.3.3實時數據256
10.4本章小結256
第11章協同過濾推薦系統257
11.1推薦算法概述257
11.1.1基於人口統計學的推薦257
11.1.2基於內容的推薦258
11.1.3協同過濾推薦258
11.2協同過濾推薦算法分析259
11.2.1基於用戶的協同過濾推薦259
11.2.2基於物品的協同過濾推薦261
11.3 Spark MLlib推薦算法應用262
11.3.1 ALS算法原理262
11.3. 2 ALS的應用設計264
11.4本章小結277
第12章銷售數據分析系統279
12.1數據採集279
12.1.1在Windows平台安裝JDK 279
12.1.2在Windows平台安裝Eclipse 281
12.1.3將WebCollector項目導入Eclipse 282
12.1 .4在Windows平台安裝MySQL 283
12.1.5連接JDBC 286
12.1.6運行爬蟲程序286
12.2在HBase集群上準備數據287
12.2.1將數據導入MySQL 287
12.2.2將MySQL表中的數據導入HBase集群289
12.3安裝Phoenix中間件291
12.3.1 Phoenix架構291
12.3.2解壓安裝Phoenix 293
12.3.3 Phoenix環境配置293
12.3.4使用Phoenix 294
12.4基於Web的前端開發298
12.4.1將Web前端項目導入Eclipse 298
12.4.2安裝Tomcat 300
12.4.3在Eclipse中配置Tomcat 300
12.4.4在Web瀏覽器中查看執行結果303
12.5本章小結305
參考文獻307


作者介紹


黃東軍,男,教授,博士,博士生導師。畢業於中南大學計算機應用技術,先工作於中南大學信息科學與工程學院。中國計算機學會高級會員,教育部計算機科學與技術專業教學指導委員會"物聯網工程專業教學研究專家組”成員。




相關書籍

HTML5 + JavaScript 程式開發指南

作者 Chris Sells Brandon Satrom

2019-09-01

懶人圖解統計學:統整複雜數據,看穿大數據背後真相

作者 今野紀雄 陳朕疆 譯

2019-09-01

JavaScript核心技術開發解密

作者 陽波

2019-09-01