Spark項目實戰
內容描述
本書運用Spark計算框架的核心組件對電商數據進行分析,以項目形式呈現,其內容涵蓋環境搭建、數據分析、數據持久化和數據可視化, 涉及JavaEE、ECharts、Hadoop、HBase、Spark、Kafka和ZooKeeper等技術點的綜合應用。針對項目開發過程的每個環節都進行了深入講解,使讀者由淺入深地瞭解每個環節的知識內容。 本書共分為7章。第1章主要介紹項目開發的基本情況;第2章主要介紹大數據集群環境的搭建;第3章主要介紹通過Spark實現熱門品類Top10分析,並對分析結果進行持久化操作;第4章主要介紹通過Spark實現各區域熱門商品Top3分析,並對分析結果進行持久化操作;第5章主要介紹通過Spark SQL實現網站轉化率統計,並對分析結果進行持久化操作;第6章主要介紹通過Spark Streaming實現廣告點擊流實時統計,並實時持久化統計結果;第7章主要介紹通過可視化技術將第3~6章的分析與統計結果進行圖形化展示。 本書配有視頻、源代碼、教學設計、教學PPT、教學大綱等資源。同時,為了幫助初學者更好地學習書中的內容,還提供了在線答疑,歡迎讀者關註。 本書適合擁有Spark基礎的讀者閱讀,也可以作為高等院校相關課程的教學參考書。讀者不僅能夠通過項目實戰鞏固基礎知識的學習效果,還能學習商業智能系統的開發過程。
目錄大綱
第1章項目概述1
1.1項目需求和目標1
1.2預備知識2
1.3項目架構設計及技術選取2
1.4開發環境和開發工具介紹3
1.5項目開發流程4
1.6硬件要求5
1.7本章小結6
第2章搭建大數據集群環境7
2.1安裝準備7
2.1.1認識Linux操作 7
2.1.2創建虛擬機8
2.1.3啟動虛擬機並安裝Linux操作14
2.1.4克隆虛擬機22
2.1.5配置Linux操作網絡及主機名25
2.1.6SSH配置29
2.1.7配置時間同步36
2.2安裝JDK41
2.3ZooKeeper集群部署42
2.3.1ZooKeeper集群的安裝與配置…42
2.3.2ZooKeeper集群的啟動與關閉…44
2.4Hadoop集群部署46
2.4.1Hadoop高可用集群規劃46
2.4.2安裝Hadoop47
2.4.3Hadoop高可用集群配置48
2.4.4啟動Hadoop高可用集群55
2.5Spark集群部署60
2.5.1Spark集群部署模式60
2.5.2Spark集群安裝配置61
2.5.3Spark集群62
2.6HBase集群部署64
2.6.1HBase集群規劃64
2.6.2HBase集群安裝配置65
2.6.3啟動HBase集群67
2.7Kafka集群部署69
2.7.1Kafka集群的安裝與配置69
2.7.2啟動Kafka集群70
2.8本章小結72
第3章熱門品類Top10分析73
3.1數據集分析73
3.2實現思路分析74
3.3實現熱門品類Top1075
3.3.1創建項目75
3.3.2創建Spark連接並讀取數據集81
3.3.3獲取業務數據82
3.3.4統計品類的行為類型83
3.3.5過濾品類的行為類型83
3.3.6合併相同品類的行為類型85
3.3.7根據品類的行為類型進行排序85
3.3.8數據持久化87
3.4運行程序92
3.5本章小結97
第4章各區域熱門商品Top3分析98
4.1實現思路分析98
4.2實現各區域熱門商品Top399
4.2.1創建Spark連接並讀取數據集99
4.2.2獲取業務數據100
4.2.3過濾商品的行為類型100
4.2.4轉換數據格式101
4.2.5統計每個區域中的不同商品101
4.2.6根據區域進行分組102
4.2.7根據區域內商品的查看次數進行排序102
4.2.8數據持久化103
4.3運行程序106
4.4本章小結108
第5章網站轉化率統計109
5.1數據集分析109
5.2實現思路分析110
5.3實現網站轉化率統計111
5.3.1生成用戶瀏覽網頁數據111
5.3.2修改pom.xml文件112
5.3.3創建Spark連接並讀取數據集113
5.3.4統計每個頁面訪問次數114
5.3.5獲取每個用戶瀏覽網頁的順序114
5.3.6合併同一用戶瀏覽的網頁114
5.3.7統計每個單跳的次數115
5.3.8計算頁面單跳轉化率116
5.3.9數據持久化117
5.4運行程序118
5.5本章小結121
第6章廣告點擊流實時統計122
6.1數據集分析122
6.2實現思路分析123
6.3數據庫設計124
6.4實現廣告點擊流實時統計125
6.4.1修改pom.xml文件125
6.4.2生產用戶廣告點擊流數據125
6.4.3創建Spark Streaming連接128
6.4.4讀取用戶廣告點擊流數據129
6.4.5獲取業務數據129
6.4.6讀取黑名單用戶數據130
6.4.7過濾黑名單用戶131
6.4.8統計每個城市不同廣告的點擊次數132
6.4.9添加黑名單用戶133
6.4.10數據持久化134
6.5運行程序135
6.6本章小結137
第7章數據可視化138
7.1概述138
7.1.1技術選取138
7.1.2架構139
7.2數據表設計與實現141
7.2.1數據表介紹141
7.2.2Phoenix集成HBase142
7.2.3建立Phoenix與HBase表映射143
7.3創建Spring Boot項目147
7.4實現熱門品類Top10數據可視化152
7.4.1創建實體類Top10Entity152
7.4.2創建數據庫訪問接口Top10Dao153
7.4.3創建控制器類Top10Controller153
7.4.4創建HTML文件top10.html154
7.4.5運行項目實現熱門品類Top10數據可視化157
7.5實現各區域熱門商品Top3數據可視化160
7.5.1創建實體類Top3Entity160
7.5.2創建數據庫訪問接口Top3Dao160
7.5.3創建控制器類Top3Controller161
7.5.4創建HTML文件top3.html162
7.5.5運行項目實現各區域熱門商品Top3數據可視化164
7.6實現頁面單跳轉化率數據可視化165
7.6.1創建實體類ConversionEntity165
7.6.2創建數據庫訪問接口ConversionDao165
7.6.3創建控制器類ConversionController166
7.6.4創建HTML文件conversion.html166
7.6.5運行項目實現頁面單跳轉化率數據可視化169
7.7實現廣告點擊流實時統計可視化169
7.7.1創建實體類AdsEntity169
7.7.2創建數據庫訪問接口AdsDao170
7.7.3創建控制器類AdsController170
7.7.4創建HTML文件ads.html171
7.7.5運行項目實現廣告點擊流實時統計可視化173
7.8本章小結174
作者介紹
江蘇傳智播客教育科技股份有限公司(簡稱傳智播客)是一家致力於培養高素質軟件開發人才的科技公司,“黑馬程序員”是傳智播客旗下高端IT教育品牌。