大數據導論(Big data fundamentals: concepts, drivers and techniques)
內容描述
本書是面向商業和技術專業人員的大數據權威指南,清楚地介紹了大數據相關的概念、理論、術語與基礎技術,並使用真實連貫的商業案例以及簡單的圖表,幫助讀者更清晰地理解大數據技術。本書可作為高等院校相關專業“大數據基礎”、“大數據道路”等課程的教材,也可供有一定實踐經驗的軟件開發人員、管理人員和所有對大數據感興趣的人士閱讀。
目錄大綱
目錄
譯者序
致謝
作者簡介
第一部分大數據基礎
第1章理解大數據3
1.1概念與術語4
1.1.1數據集4
1.1.2數據分析5
1.1.3數據分析學5
1.1.4商務智能11
1.1 .5關鍵績效指標11
1.2大數據特徵12
1.2.1容量12
1.2.2速率13
1.2.3多樣性13
1.2.4真實性14
1.2.5價值14
1.3不同數據類型15
1.3.1結構化數據16
1.3.2非結構化數據17
1.3.3半結構化數據17
1.3.4元數據18
1.4案例學習背景18
1.4.1歷史背景18
1.4.2技術基礎和自動化環境19
1.4.3商業目標和障礙20
1.5案例學習21
1.5.1確定數據特徵22
1.5.2確定數據類型24
第2章採用大數據的商業動機與驅動25
2.1市場動態25
2.2業務架構27
2.3業務流程管理30
2.4信息與通信技術31
2.4 .1數據分析與數據科學31
2.4.2數字化31
2.4.3開源技術與商用硬件32
2.4.4社交媒體33
2.4.5超連通社區與設備33
2.4.6雲計算34
2.5萬物互聯網35
2.6案例學習35
第3章大數據採用及規 考慮39
3.1組織的先決條件40
3.2數據獲取40
3.3隱私性40
3.4安全性41
3.5數據來源42
3.6有限的實時支持43
3.7不同的性能挑戰43
3.8不同的管理需求43
3.9不同的方法論44
3.10雲44
3.11大數據分析的生命週期45
3.11.1商業案例評估45
3.11.2數據標識47
3.11.3數據獲取與過濾47
3.11.4數據提取48
3.11.5數據驗證與清理49
3.11.6數據聚合與表示50
3.11.7數據分析52
3.11.8數據可視化52
3.11.9分析結果的使用53
3.12案例學習54
3.12.1大數據分析的生命週期55
3.12.2商業案例評估55
3.12.3數據標識56
3.12. 4數據獲取與過濾56
3.12.5數據提取57
3.12.6數據驗證與清理57
3.12.7數據聚合與表示57
3.12.8數據分析57
3.12.9數據可視化58
3.12.10分析結果的使用58
第4章企業級技術與大數據商務智能59
4.1聯機事務處理60
4.2聯機分析處理60
4.3抽取、轉換和加載技術61
4.4數據倉庫61
4.5數據集市62
4.6傳統商 務智能62
4.6.1即席報表63
4.6.2儀表板63
4.7大數據商務智能65
4.7.1傳統數據可視化65
4.7.2大數據的數據可視化66
4.8案例學習67
4.8.1企業技術67
4.8.2大數據商務智能68
第二部分存儲和分析大數據
第5章大數據存儲的概念71
5.1集群72
5.2文件系統和分佈式文件系統72
5.3 NoSQL73
5.4分片74
5.5複製75
5.5.1主從式複制76
5.5.2對等式複制77
5.6分片和復制80
5.6.1結合分片和主從式複制80
5.6.2結合分片和對等式複制81
5.7 CAP定理82
5.8 ACID85
5.9 BASE88
5.10案例學習91
第6章大數據處理的概念93
6.1並行數據處理93
6.2分佈式數據處理94
6.3 Hadoop94
6.4處理工作量95
6.4.1批處理型95
6.4.2事務型95
6.5集群96
6.6批處理模式97
6.6 .1 MapReduce批處理97
6.6.2 Map和Reduce任務98
6.6.3 MapReduce的簡單實例103
6.6.4理解MapReduce算法104
6.7實時模式處理107
6.7.1 SCV原則107
6.7.2事件流處理110
6.7.3複雜事件處理110
6.7 .4大數據實時處理與SCV110
6.7.5大數據實時處理與MapReduce111
6.8案例學習112
6.8.1處理工作量112
6.8.2批處理模式處理112
6.8.3實時模式處理113
第7章大數據存儲技術115
7.1磁盤存儲設備115
7.1.1分佈式文件系統116
7.1.2 RDBMS數據庫117
7.1.3 NoSQL數據庫119
7.1.4 NewSQL數據庫128
7.2內存存儲設備129
7.2.1內存數據網格131
7.2.2內存數據庫138
7.3案例學習141
第8章大數據分析技術143
8.1定量分析144
8.2定性分析145
8.3數據挖掘145
8.4統計分析146
8.4.1 A/B測試146
8.4.2相關性分析147
8.4.3回歸性分析149
8.5機器學習150
8.5.1分類(有監督的機器學習)151
8.5.2聚類(無監督的機器學習)152
8.5.3異常檢測152
8.5.4過濾153
8.6語義分析154
8.6.1自然語言處理155
8.6.2文本分析155
8.6.3情感分析156
8.7視覺分析157
8.7.1熱點圖157
8.7.2時間序列圖159
8.7.3網絡圖160
8.7.4空間數據製圖161
8.8案例學習162
8.8. 1 相關性分析162
8.8.2回歸性分析162
8.8.3時間序列圖163
8.8.4聚類163
8.8.5分類163
附錄A案例結論165
索引167
作者介紹
作者簡介Thomas ErlThomas Erl是IT暢銷書作者,Arcitura教育公司的創始人,Prentice Hall出版社“Thomas Erl的服務技術叢書”的編輯。他的書發行量超過200 000冊,成為國際暢銷書,並且已經獲得多個重要IT組織成員的正式認可,例如,IBM、Microsoft、Oracle、Intel、Accenture、IEEE、HL7、MITRE、SAP、CISCO、 HP等。作為Arcitura公司的CEO,Thomas領導研發了國際公認的大數據科學專家認證(BDSCP)、雲專家認證(CCP)與SOA專家認證(SOACP)的課程大綱,設立了一系列正式的、與廠商無關的工業認證,全球已有數千IT從業人員獲得了這些認證。Thomas還作為演講家與教育家,在20多個國家進行過巡迴演講。Thomas已經在諸多出刊物上發表過100多篇文章和訪談,包括《華爾街日報》與《CIO雜誌》。
Wajid KhattakWajid Khattak是Arcitura教育公司的大數據研究者與教育者。他的研究領域包括大數據工程與架構、數據科學、機器學習、分析學與SOA。此外,他在商務智能報告解決方案與GIS方面有著豐富的.NET軟件開發經驗。
Wajid於2003年在英國伯明翰城市大學獲得軟件工程學士學位,於2008年在該校以傑出的成績獲得軟件工程與安全碩士學位。另外,Wajid還獲得了MCAD & MCTS(Microsoft)、SOA架構師、大數據科學家、大數據工程師以及大數據研究顧問(Arcitura)認證。
Paul BuhlerPaul Buhler博士是一位經驗豐富的IT專家,他在商業公司、政府機構和學校均有過從業經驗。在面向服務的計算概念、技術和實現方法領域,他是一位受人尊敬的研究者、實踐者與教育者。他在XaaS領域的研究已經延伸到了雲、大數據與萬物互聯網(IoE)。目前他的研究興趣是通過權衡響應式設計原則與基於目標的執行方式,減少業務策略與流程執行之間的差距。
作為Modus21的首席科學家,Paul Buhler博士根據當前業務架構與流程執行框架的發展趨勢調整企業的戰略佈局。目前,他還是查爾斯頓學院的合作教授,負責本科生與碩士生計算機科學課程的教學工作。Paul Buhler博士在南卡羅來納大學獲得計算機工程博士學位,在約翰霍普金斯大學獲得計算機科學碩士學位,在塞特多大學獲得計算機科學學士學位。