大數據架構詳解:從數據獲取到深度學習
內容描述
<內容簡介>
本書從架構、業務、技術三個維度深入淺出地介紹了大數據處理領域端到端的知識。
主要內容包括三部分:
◆第一部分從數據的產生、採集、計算、存儲、消費端到端的角度介紹大數據技術的起源、發展、關鍵技術點和未來趨勢,結合生動的業界最新產品,以及學術界最新的研究方向和成果,讓深奧的技術淺顯易懂。
◆第二部分從業務和技術角度介紹實際案例,讓讀者理解大數據的用途及技術的本質。
◆第三部分介紹大數據技術不是孤立的,講解如何與前沿的雲技術、深度學習、機器學習等相結合。
<作者簡介>
朱潔
2008年加入華為,具有8年大數據研發管理經驗,現任華為大數據服務首席規劃師。專註於大數據服務平臺建設、規劃和實踐應用,同時參與多項企業級大數據項目解決方案的規劃、設計和實施工作,在深化大數據行業落地方面有諸多實踐經驗,對解讀大數據垂直行業的技術創新與開發有諸多獨到的見解和心得。
羅華霖
2002年加入華為,華為大數據首席規劃師,主導完成華為大數據平臺DataSight和華為電信大數據解決方案SmartCare技術規劃和架構設計,支持電信運營商數字化戰略轉型,完成浙江移動、上海聯通、沙特STC等200+電信大數據解決方案項目落地。曾任華為軟交換首席設計師,華為大型電信大數據解決方案SmartCare首席架構師。
<章節目錄>
第一部分 大數據的本質
第1章 大數據是什麼
1.1大數據導論
1.1.1大數據簡史
1.1.2大數據現狀
1.1.3大數據與BI
1.2企業數據資產
1.3大數據挑戰
1.3.1成本挑戰
1.3.2實時性挑戰
1.3.3安全挑戰
1.4小結
第2章 運營商大數據架構
2.1架構驅動的因素
2.2大數據平臺架構
2.3平臺發展趨勢
2.4小結
第3章 運營商大數據業務
3.1運營商常見的大數據業務
3.1.1SQM(運維質量管理)
3.1.2CSE(客戶體驗提升)
3.1.3MSS(市場運維支撐)
3.1.4DMP(數據管理平臺)
3.2小結
第二部 分大數據技術
第4章 數據獲取
4.1數據分類
4.2數據獲取組件
4.3探針
4.3.1探針原理
4.3.2探針的關鍵能力
4.4網頁採集
4.4.1網絡爬蟲
4.4.2簡單爬蟲Python代碼示例
4.5日誌收集
4.5.1Flume
4.5.2其他日誌收集組件
4.6數據分發中間件
4.6.1數據分發中間件的作用
4.6.2Kafka架構和原理
4.7小結
第5章 流處理
5.1算子
5.2流的概念
5.3流的應用場景
5.3.1金融領域
5.3.2電信領域
5.4業界兩種典型的流引擎
5.4.1Storm
5.4.2Spark Streaming
5.4.3融合框架
5.5CEP
5.5.1CEP是什麼
5.5.2CEP的架構
5.5.3Esper
5.6實時結合機器學習
5.6.1Eagle的特點
5.6.2Eagle概覽
5.7小結
第6章 交互式分析
6.1交互式分析的概念
6.2MPPDB技術
6.2.1MPP的概念
6.2.2典型的MPP數據庫
6.2.3MPPDB調優實戰
6.2.4MPPDB適用場景
6.3SQLon Hadoop
6.3.1Hive
6.3.2Phoenix
6.3.3Impala
6.4大數據倉庫
6.4.1數據倉庫的概念
6.4.2OLTP
6.4.3大數據場景下的同與不同
6.4.4查詢引擎
6.4.5存儲引擎
6.5小結
第7章 批處理技術
7.1批處理技術的概念
7.2MPPDB技術
7.3Map Reduce編程框架
7.3.1Map Reduce起源
7.3.2Map Reduce原理
7.3.3Shuffle
7.3.4性能差的主要原因
7.4Spark架構和原理
7.4.1Spark的起源和特點
7.4.2Spark的核心概念
7.5 BSP框架
7.5.1什麼是BSP模型
7.5.2並行模型介紹
7.5.3BSP模型基本原理
7.5.4BSP模型的特點
7.5.5BSP模型的評價
7.5.6BSP與Map Reduce對比
7.5.7BSP模型的實現
7.5.8Apache Hama簡介
7.6批處理關鍵技術
7.6.1CodeGen
7.6.2CPU親和技術
7.7小結
第8章 機器學習和數據挖掘
8.1機器學習和數據挖掘的聯繫與區別
8.2典型的數據挖掘和機器學習過程
8.3機器學習概覽
8.3. 1學習方式
8.3.2算法類似性
8.4機器學習&數據挖掘應用案例
8.4.1尿布和啤酒的故事
8.4.2決策樹用於電信領域故障快速定位
8.4.3圖像識別領域
8.4.4自然語言識別
8.5交互式分析
8.6深度學習
8.6.1深度學習概述
8.6.2機器學習的背景
8.6.3人腦視覺機理
8.6.4關於特徵
8.6.5需要有多少個特徵
8.6.6深度學習的基本思想
8.6.7淺層學習和深度學習
8.6.8深度學習與神經網絡
8.6.9深度學習的訓練過程
8.6.10深度學習的框架
8.6.11深度學習與GPU
8.6.12深度學習小結與展望
8.7小結
第9章 資源管理
9.1資源管理的基本概念
9.1.1資源調度的目標和價值
9.1.2資源調度的使用限制及難點
9.2Hadoop領域的資源調度框架
9.2.1YARN
9.2.2Borg
9.2.3Omega
9.2.4本節小結
9.3資源分配算法
9.3.1算法的作用
9.3.2幾種調度算法分析
9.4數據中心統一資源調度
9.4.1Mesos+Marathon架構和原理
9.4.2Mesos+Marathon小結
9.5多租戶技術
9.5.1多租戶概念
9.5.2多租戶方案
9.6基於應用描述的智能調度
9.7Apache Mesos架構和原理
9.7.1Apache Mesos背景
9.7.2Apache Mesos總體架構
9.7.3Apache Mesos工作原理
9.7.4Apache Mesos關鍵技術
9.7.5Mesos與YARN比較
9.8小結
第10章 存儲是基礎
10.1分久必合,合久必分
10.2存儲硬件的發展
10.2.1機械硬盤的工作原理
10.2.2SSD的原理
10.2.33DXPoint
10.2.4硬件發展小結
10.3存儲關鍵指標
10.4RAID技術
10.5存儲接口
10.5.1文件接口
10.5.2裸設備
10.5.3對象接口
10.5.4塊接口
10.5.5融合是趨勢
10.6存儲加速技術
10.6.1數據組織技術
10.6.2緩存技術
10.7小結
第11章 大數據雲化
11.1雲計算定義
11.2應用上雲
11.2.1CloudNative概念
11.2.2微服務架構
11.2.3Docker配合微服務架構
11.2.4應用上雲小結
11.3大數據上雲
11.3.1大數據雲服務的兩種模式
11.3.2集群模式AWSEMR
11.3.3服務模式Azure Data Lake Analytics
11.4小結
第三部分 大數據文化
第12章 大數據技術開發文化
12.1開源文化
12.2Dev Ops理念
12.2.1Development和Operations的組合
12.2.2對應用程序發布的影響
12.2. 3遇到的問題
12.2.4協調人
12.2.5成功的關鍵
12.3速度遠比你想的重要
12.4小結