Spark SQL 親自動手做:大數據時代的資料庫處理 (熱銷版)
內容描述
Spark SQL是Spark大數據框架的一部分,支援使用標準SQL查詢和HiveQL來讀寫資料,可用於結構化資料處理,並可以執行類似SQL的Spark資料查詢,有助於開發人員更快地建置和執行Spark程式。
全書分為4篇,共9章,第一篇講解Spark SQL 發展歷史和開發環境搭建。第二篇講解Spark SQL 實例,幫助讀者掌握Spark SQL的入門操作,瞭解Spark RDD、DataFrame和DataSet,並熟悉 DataFrame 各種操作。第三篇講解基於WiFi探針的商業大數據分析專案,實例中包含資料獲取、預處理、存儲、利用Spark SQL 挖掘資料,一步步帶領讀者學習Spark SQL強大的資料採擷功能。第四篇講解Spark SQL 最佳化的知識。
適用:Spark初學者、Spark資料分析人員以及Spark程式開發人員,也可作為大專院校和培訓機構等相關專業的師生教學參考。
目錄大綱
第一部分 入門篇
1初識Spark SQL
1.1 Spark SQL的前世今生
1.2 Spark SQL能做什麼
2 Spark安裝、程式設計環境架設以及包裝傳送
2.1 Spark的簡易安裝
2.2 準備撰寫Spark應用程式的IDEA環境
2.3 將撰寫好的Spark應用程式套件裝成jar傳送到Spark上
第二部分 基礎篇
3 Spark上的RDD程式設計
3.1 RDD基礎
3.2 RDD簡單實例—wordcount
3.3 建立RDD
3.4 RDD操作
3.5 向Spark傳遞函數
3.6 常見的轉化操作和行動操作
3.7 深入了解RDD
3.8 RDD 快取、持久化
3.9 RDD checkpoint容錯機制
4 Spark SQL程式設計入門
4.1 Spark SQL概述
4.2 Spark SQL程式設計入門範例
5 Spark SQL的DataFrame操作大全
5.1 由JSON檔案產生所需的DataFrame物件
5.2 DataFrame上的行動操作
5.3 DataFrame上的轉化操作
6 Spark SQL支援的多種資料來源
6.1 概述
6.2 典型結構化資料來源
第三部分 實作篇
7 Spark SQL 工程實戰之以WiFi探針為基礎的商業大數據分析技術
7.1 功能需求
7.2 系統架構
7.3 功能設計
7.4 資料庫結構
7.5 本章小結
8 第一個Spark SQL應用程式
8.1 完全分散式環境架設
8.2 資料清洗
8.3 資料處理流程
8.4 Spark程式遠端偵錯
8.5 Spark的Web介面
8.6 本章小結
第四部分 最佳化篇
9 讓Spark程式再快一點
9.1 Spark執行流程
9.2 Spark記憶體簡介
9.3 Spark的一些概念
9.4 Spark程式設計四大守則
9.5 Spark最佳化七式
9.6 解決資料傾斜問題
9.7 Spark 執行引擎Tungsten 簡介
9.8 Spark SQL解析引擎Catalyst 簡介
9.9 本章小結
作者介紹
紀涵
資料採擷、雲計算愛好者,曾負責多個中小型網站的開發維護工作,參與開發設計多款面向校園服務的App,與多個基於Hadoop、Spark平台的大數據應用,現主要研究方向為機器學習、資料採擷。