大數據技術架構:核心原理與應用實踐

大數據技術架構:核心原理與應用實踐

作者: 李智慧
出版社: 電子工業
出版在: 2021-07-01
ISBN-13: 9787121414183
ISBN-10: 712141418X
裝訂格式: 平裝
總頁數: 208 頁





內容描述


在人工智能時代,不論是否從事大數據開發,掌握大數據的原理和架構早已成為每個工程師的必備技能。本書結合作者多年大數據開發、應用的經驗,深入淺出地闡述大數據的完整知識體系,幫助讀者從不同視角找到大數據方向的突破口,真正從普通開發者晉升為擁有大數據思維並能解決復雜問題的技術專家。本書一共分為7章,分別是大數據的前世今生與應用場景、Hadoop大數據原理與架構、大數據生態體系主要產品原理與架構、大數據開發實踐、大數據平臺與系統集成、大數據分析與運營、大數據算法與機器學習。本書既可作為初學者瞭解大數據技術的入門指南,也可作為有一定經驗的工程師深入理解大數據思維的有益參考。


目錄大綱


1 大數據的前世今生與應用場景 1
大數據的前世今生:大數據簡史與大數據生態體系概述 1
從搜索引擎到人工智能:大數據應用發展史 6
大數據應用的搜索引擎時代 6
大數據應用的數據倉庫時代 7
大數據應用的數據挖掘時代 7
大數據應用的機器學習時代 8
數據驅動一切:大數據全領域應用場景分析 10
大數據在醫療健康領域的應用 10
大數據在社交媒體領域的應用 12
大數據在金融領域的應用 13
大數據在新零售領域的應用 13
大數據在交通領域的應用 13
2 Hadoop大數據原理與架構 15
移動計算比移動數據更划算 16
從RAID看垂直伸縮到水平伸縮的演化 19
新技術層出不窮,HDFS依然是存儲的王者 23
為什麼說MapReduce既是編程模型又是計算框架 29
MapReduce如何讓數據完成一次旅行 33
MapReduce作業啟動和運行機制 34
MapReduce數據合併與連接機制 37
為什麼把Yarn稱為資源調度框架 39
程序員應該如何學好大數據技術 44
3 大數據生態體系主要產品原理與架構 47
Hive是如何讓MapReduce實現SQL操作的 47
用MapReduce實現SQL數據分析的原理 48
Hive的架構 49
Hive如何實現join操作 51
人們並沒有覺得MapReduce速度慢,直到Spark出現 53
同樣的本質,為何Spark可以更高效 57
Spark的計算階段 57
Spark的作業管理 61
Spark的執行過程 62
BigTable的開源實現:HBase 63
HBase可伸縮架構 64
HBase可擴展數據模型 65
HBase的高性能存儲 66
流式計算的代表:Storm、Spark Streaming、Flink 68
Storm 68
Spark Streaming 70
Flink 71
ZooKeeper是如何保證數據一致性的 74
分佈式一致性原理 75
Paxos算法與ZooKeeper架構 76
大數據技術應用場景分析 80
4 大數據開發實踐 82
如何自己開發一個大數據SQL引擎 83
Panthera架構 83
Panthera的SQL語法轉換 84
比如這條SQL 85
Panthera程序設計 85
Spark的性能優化案例分析 89
Apache開源社區的組織和參與方式 90
軟件性能優化 91
大數據開發的性能優化 91
Spark性能優化 92
案例1:Spark任務文件初始化調優 95
案例2:Spark任務調度優化 98
案例3:Spark應用配置優化 102
案例4:操作系統配置優化 102
案例5:硬件優化 103
大數據基準測試可以帶來什麼好處 105
大數據基準測試的應用 105
大數據基準測試工具HiBench 107
從大數據性能測試工具Dew看如何快速開發大數據系統 109
Dew設計與開發 110
Akka的原理與應用 112
大數據開發實踐的啟示 115
5 大數據平台與系統集成 117
大數據平台 = 互聯網產品 + 大數據產品 117
數據採集 119
數據處理 119
數據輸出與展示 119
大數據任務調度 120
大數據平台Lamda架構 120
數據在大數據平台中的流轉 121
大數據從哪裡來 123
從數據庫導入 123
從日誌文件導入 124
前端埋點採集 126
爬蟲系統 128
數據的熵 128
知名大廠如何搭建大數據平台 129
淘寶大數據平台 129
美團大數據平台 130
滴滴大數據平台 131
學架構就是學架構模式 133
盤點可供中小企業參考的商業大數據平台 134
大數據解決方案提供商 134
大數據云計算服務商 136
大數據SaaS服務商 138
大數據開放平台 138
當大數據遇上物聯網 139
物聯網應用場景分析 139
物聯網平台架構 140
大數據技術在物聯網中的應用 141
6 大數據分析與運營 144
老闆想要監控什麼運營指標 144
互聯網運營的常用數據指標 145
數據可視化圖表與數據監控 147
一個用戶新增下降的數據分析案例 150
數據分析案例 151
數據分析方法 154
AB測試與灰度發布必知必會 156
A/B測試的過程 157
A/B測試的系統架構 158
灰度發布 159
如何利用大數據成為“增長黑客” 160
Hotmail的增長黑客故事 161
AARRR用戶增長模型 161
利用大數據增長用戶數量 163
為什麼說數據驅動運營 164
7 大數據算法與機器學習 168
如何對數據進行分類和預測 168
k近鄰分類算法 169
數據的距離 170
文本的特徵值 171
貝葉斯分類 172
如何發掘數據的關係 174
搜索排序 174
關聯分析 177
聚類 179
如何預測用戶的喜好 181
基於人口統計的推薦 182
基於商品屬性的推薦 183
基於用戶的協同過濾推薦 184
基於商品的協同過濾推薦 185
機器學習的數學原理是什麼 186
樣本 187
模型 187
算法 188
為什麼學機器學習要學數學 189
從感知機到神經網絡 190
感知機 191
神經網絡 192


作者介紹


李智慧,同程旅行交通首席架構師。
曾任阿里巴巴、Intel架構師,長期從事分佈式系統與大數據開發,Apache Spark 代碼貢獻者,騰訊雲TVP,著有暢銷書《大型網站技術架構:核心原理與案例分析》。




相關書籍

jQuery UI in Action (Paperback)

作者 T. J. VanToll

2021-07-01

CSS選擇器世界

作者 張鑫旭

2021-07-01

丙級網頁設計學術科解題範本 (最新版)

作者 李仲庭

2021-07-01