大數據技術基礎

大數據技術基礎

作者: 宋旭東 主編 宋亮 王立娟 張鵬 副主編
出版社: 清華大學
出版在: 2020-08-01
ISBN-13: 9787302557531
ISBN-10: 7302557535





內容描述


本書系統介紹了大數據基礎知識和相關技術,全書分為大數據概述篇、大數據存儲與管理篇、大數據採集與預處理篇、大數據分析與挖掘篇、大數據平臺Hadoop實踐與案例分析篇。全書共15章,主要內容包括大數據基本概念、大數據存儲與管理概念及技術、大數據採集及預處理技術、大數據計算模式、大數據分佈式並行處理框架Hadoop、大數據分佈式文件系統HDFS、大數據分佈式數據庫系統HBASE、大數據Hadoop平臺操作實踐及具體大數據預測應用案例分析。


目錄大綱


目錄

第一篇大數據基礎
 
第1章大數據基本概念
1.1大數據時代
1.1.1大數據有多大
1.1.2大數據的產生
1.1.3大數據的發展歷程
1.1.4大數據對科學研究的影響
1.1.5大數據對思維模式的影響
1.2大數據的定義與特徵
1.2.1大數據的定義
1.2.2大數據的數據特徵
1.3大數據的應用
1.3.1大數據在科研領域的應用
1.3.2大數據在交通領域的應用
1.3.3大數據在通信領域的應用
1.3.4大數據在醫療領域的應用
1.3.5大數據在金融領域的應用
1.3.6大數據在製造領域的應用
1.3.7大數據在體育領域的應用
1.3.8大數據在個性化生活領域的應用
1.3.9大數據在安全領域的應用
1.4大數據框架體系
1.4.1大數據基礎設施層
1.4.2大數據採集層
1.4.3大數據存儲層
1.4.4大數據處理層
1.4.5大數據交互展示層
1.4.6大數據應用層
1.5大數據關鍵技術
1.5.1數據採集與預處理技術
1.5.2數據存儲與管理技術
1.5.3數據分析與挖掘技術
1.5.4數據可視化技術
1.5.5數據安全和隱私保護技術
1.6大數據支撐技術
1.6.1雲計算
1.6.2物聯網
1.6.3機器學習
習題
 
第2章大數據平臺Hadoop基礎
2.1大數據平臺Hadoop概述
2.1.1Hadoop簡介
2.1.2Hadoop項目起源
2.1.3Hadoop發展歷程
2.1.4Hadoop特性
2.1.5Hadoop主要用途
2.2大數據平臺Hadoop原理
2.2.1分佈式計算原理
2.2.2MapReduce原理
2.2.3Yarn原理
2.3大數據平臺Hadoop組件
2.3.1HDFS組件
2.3.2MapReduce組件
2.3.3ZooKeeper組件
2.3.4Yarn組件
2.3.5HBase組件
2.3.6Hive組件
2.3.7Spark組件
2.3.8Mahout組件
2.3.9Flume組件
2.3.10Sqoop組件
2.3.11Kafka組件
2.3.12Pig組件
2.3.13Ambari組件
2.3.14Tez組件
2.3.15Common組件
習題
 
第二篇大數據存儲與管理
 
第3章大數據存儲與管理基本概念
3.1大數據的數據類型
3.1.1結構化數據
3.1.2半結構化數據
3.1.3非結構化數據
3.2數據管理技術的發展
3.2.1文件系統階段
3.2.2數據庫系統階段
3.2.3數據倉庫階段
3.2.4分佈式系統階段
3.3分佈式系統基礎理論
3.3.1CAP理論
3.3.2BASE思想
3.4NoSQL數據庫
3.4.1NoSQL數據庫的興起
3.4.2NoSQL數據庫與關系數據庫的比較
3.4.3NoSQL數據庫的四大類型
3.5大數據存儲與管理技術
3.5.1分佈式存儲技術
3.5.2虛擬化技術
3.5.3雲存儲技術
習題
 
第4章大數據分佈式文件系統
4.1HDFS概述
4.1.1HDFS簡介
4.1.2HDFS設計特點
4.2HDFS工作原理
4.2.1HDFS體系結構
4.2.2HDFS工作組件
4.3HDFS工作流程
4.3.1讀數據的過程
4.3.2寫數據的過程
4.4HDFS基本操作
4.4.1HDFS文件操作
4.4.2HDFS管理命令
4.5HDFS編程接口
4.5.1HDFS常用Java API
4.5.2HDFS API編程實例
習題
 
第5章大數據分佈式數據庫系統HBase
5.1HBase概述
5.1.1HBase簡介
5.1.2HBase特性
5.1.3HBase與傳統關系數據庫對比
5.1.4HBase應用場景
5.2HBase數據模型
5.2.1HBase數據模型術語
5.2.2HBase數據邏輯模型
5.2.3HBase數據物理模型
5.3HBase工作原理
5.3.1HBase體系結構
5.3.2HBase工作組件
5.4HBase操作命令
5.4.1HBase表操作
5.4.2HBase數據操作
5.5HBase編程接口
5.5.1HBase常用Java API
5.5.2HBase API編程實例
習題
 
第6章大數據分佈式數據倉庫系統Hive
6.1Hive概述
6.1.1Hive特性
6.1.2Hive工作原理
6.1.3Hive執行流程
6.2Hive數據類型及數據模型
6.2.1Hive數據類型
6.2.2Hive數據模型
6.3Hive SQL查詢語法
6.3.1DDL語句
6.3.2DML語句
6.3.3DQL語句
6.3.4Hive實例操作
6.4Hive訪問接口
6.4.1Hive CLI訪問接口
6.4.2JDBC訪問接口
習題
 
第三篇大數據採集與預處理
 
第7章大數據採集與預處理技術
7.1數據抽取、轉換、加載技術
7.1.1ETL概述
7.1.2數據抽取
7.1.3數據轉換
7.1.4數據加載
7.1.5ETL工具
7.2數據爬蟲技術
7.2.1爬蟲流程
7.2.2爬蟲分類
7.2.3大數據爬蟲技術
7.3數據預處理技術
7.3.1數據清理
7.3.2數據集成
7.3.3數據變換
7.3.4數據歸約
習題
 
第8章大數據採集工具
8.1Sqoop關系型大數據採集系統
8.1.1Sqoop簡介
8.1.2Sqoop工作原理
8.2Flume日誌大數據採集系統
8.2.1Flume簡介
8.2.2Flume工作原理
8.3Nutch分佈式大數據爬蟲系統
8.3.1Nutch簡介
8.3.2Nutch工作原理
習題
 
第四篇大數據分析與挖掘
 
第9章大數據計算模式
9.1大數據批處理
9.1.1大數據批處理概述
9.1.2大數據批處理常用組件
9.2大數據查詢分析計算
9.2.1大數據查詢分析計算概述
9.2.2大數據查詢分析計算組件
9.3大數據流計算
9.3.1大數據流計算概述
9.3.2大數據流計算組件
9.4大數據迭代計算
9.4.1大數據迭代計算概述
9.4.2迭代計算組件
9.5大數據圖計算
9.5.1大數據圖計算概述
9.5.2圖計算組件
習題
 
第10章大數據MapReduce計算模型
10.1MapReduce概述
10.1.1MapReduce簡介
10.1.2MapReduce由來
10.1.3MapReduce主要功能
10.1.4MapReduce技術特徵
10.2MapReduce模型框架
10.2.1MapReduce設計思想
10.2.2MapReduce模型架構
10.3MapReduce數據處理過程
10.3.1MapReduce運行原理
10.3.2MapReduce數據輸入輸出流程
10.4MapReduce程序執行過程
10.4.1作業提交
10.4.2作業初始化
10.4.3作業分配
10.4.4任務執行
10.4.5過程和狀態更新
10.4.6作業完成
10.5MapReduce編程接口
10.5.1數據讀入
10.5.2Mapper類和Reduce類
10.5.3數據處理
10.5.4數據輸出
10.6MapReduce實例分析
10.6.1WordCount MapReduce設計
10.6.2WordCount編程實現
習題
 
第11章大數據Spark計算模型
11.1Spark概述
11.1.1Spark的產生
11.1.2Spark的相關概念及其組件
11.1.3Spark的特性
11.2Spark工作原理
11.2.1RDD原理
11.2.2Spark工作流程
11.2.3Spark集群架構及運行模式
11.2.4Spark Streaming工作原理
11.3Spark訪問接口
11.3.1Spark訪問接口概述
11.3.2SparkContext 訪問接口
11.3.3RDD 訪問接口
11.4Spark實例分析
11.4.1Spark Shell Wordcount編程實現
11.4.2Scala Wordcount編程實現
11.4.3Java Wordcount編程實現
習題
 
第12章大數據MapReduce基礎算法
12.1關系代數運算
12.1.1關系代數運算規則
12.1.2關系代數運算的MapReduce設計與實現
12.2矩陣乘法
12.2.1矩陣乘法原理
12.2.2矩陣乘法MapReduce設計
12.2.3矩陣乘法MapReduce實現
習題
 
第13章大數據挖掘算法
13.1大數據關聯分析算法
13.1.1Apriori算法簡介
13.1.2Apriori算法MapReduce設計
13.1.3Apriori算法MapReduce實現
13.2大數據kNN分類算法
13.2.1kNN分類算法簡介
13.2.2KNN算法MapReduce設計
13.2.3KNN算法MapReduce實現
13.3大數據kMeans聚類算法
13.3.1kMeans聚類算法簡介
13.3.2基於MapReduce的kMeans算法的設計
13.3.3基於MapReduce的kMeans算法的實現
習題
 
第五篇大數據平臺Hadoop實踐與應用案例
 
第14章Hadoop大數據平臺實踐
14.1Hadoop的安裝與配置
14.1.1安裝Hadoop的準備工作
14.1.2Linux虛擬機的安裝
14.1.3安裝和配置JDK
14.1.4下載安裝Hadoop
14.1.5SSH免密登錄
14.1.6虛擬機克隆
14.1.7Hadoop運行
14.1.8查看集群狀態 
14.2Hadoop平臺基本操作
14.2.1Hadoop啟動與關閉命令
14.2.2Hadoop文件操作
14.2.3Hadoop程序運行命令
14.3Hadoop平臺程序開發過程
14.3.1開發環境配置
14.3.2程序開發流程
習題
 
第15章開敞式碼頭系泊作業纜力預測應用案例
15.1開敞式碼頭系泊作業纜力預測背景描述
15.1.1開敞式碼頭系泊作業纜力背景描述
15.1.2開敞式碼頭系泊作業纜力預測背景
15.2大數據系泊纜力相似性查詢預測方法
15.2.1模糊相似性查詢基本方法
15.2.2系泊纜力相似性查詢預測模型
15.3相似性查詢預測方法MapReduce設計
15.3.1相似性查詢預測方法Map設計
15.3.2相似性查詢預測方法Reduce設計
15.4相似性查詢預測方法MapReduce實現
15.4.1系泊纜力預測結果展示
15.4.2系泊纜力預測結果分析
 
第16章曙光XData大數據平臺及應用案例
16.1曙光XData大數據平臺簡介
16.1.1曙光XData大數據平臺概述
16.1.2曙光XData大數據平臺特點及應用
16.2曙光大數據平臺架構及關鍵技術
16.2.1曙光XData大數據平臺架構
16.2.2曙光XData大數據平臺關鍵技術
16.3曙光XData大數據平臺組件
16.3.1曙光XData大數據集成與數據治理組件
16.3.2曙光XData大數據存儲與數據計算組件
16.3.3曙光XData大數據分析與數據智能組件
16.3.4曙光XData大數據可視化分析組件
16.3.5曙光XData大數據安全管控與管理運維組件
16.4曙光XData大數據平臺操作實踐
16.4.1曙光XData大數據平臺安裝與配置概述
16.4.2曙光XData大數據平臺基本操作
16.5基於曙光XData大數據平臺的智能交通應用案例
16.5.1曙光XData智能交通應用項目背景
16.5.2曙光XData智能交通應用方案設計
16.5.3曙光XData智能交通功能實現及應用效果
參考文獻




相關書籍

淺談邊緣運算 : 智慧生活大趨勢 (學AI真簡單系列6)

作者 AI4kids

2020-08-01

Supercharged JavaScript Graphics: with HTML5 canvas, jQuery, and More (Paperback)

作者 Raffaele Cecco

2020-08-01

大數據的傲慢與偏見:一個「圈內數學家」對演算法霸權的警告與揭發(Weapons of Math Destruction:How Big Data Increases Inequality and Threatens Democracy)

作者 凱西.歐尼爾(Cathy O’Neil) 許瑞宋 譯

2020-08-01