數據科學與大數據分析數據的發現分析可視化與表示

數據科學與大數據分析數據的發現分析可視化與表示

作者: 美國EMC教育服務團隊 (EMC Education Services)
出版社: 人民郵電
出版在: 2016-07-01
ISBN-13: 9787115416377
ISBN-10: 7115416370
裝訂格式: 平裝
總頁數: 356 頁





內容描述


<內容簡介>
數據科學與大數據分析在當前是炙手可熱的概念,關註的是如何通過分析海量數據來洞悉隱藏於數據背後的見解。本書是數據科學領域為數不多的實用性技術圖書,它通過詳細剖析數據分析生命週期的各個階段來講解用於發現、分析、可視化、表示數據的相關方法和技術。
《數據科學與大數據分析——數據的發現分析可視化與表示》總共分為12章,主要內容包括大數據分析的簡單介紹,數據分析生命週期的各個階段,使用R語言進行基本的數據分析,以及高級的分析理論和方法,主要涉及數據的聚類、關聯規則、回歸、分類、時間序列分析、文本分析等方法。此外,本書還涵蓋了用來進行高級數據分析所使用的技術和工具,比如MapReduce和Hadoop、數據庫內分析等。
《數據科學與大數據分析——數據的發現分析可視化與表示》內容詳細,示例豐富,側重於理論與練習的結合,因此比較適合對大數據分析、數據科學感興趣的人員閱讀,有志於成為數據科學家的讀者也可以從本書中獲益。

<目錄>
第1章大數據分析介紹1
1.1大數據概述2
1.1.1數據結構4
1.1.2數據存儲的分析視角9
1.2分析的實踐狀態10
1.2.1商業智能VS數據科學11
1.2.2當前分析架構12
1.2.3大數據的驅動力14
1.2.4新的大數據生態系統和新的分析方法15
1.3新的大數據生態系統中的關鍵角色17
1.4大數據分析案例20
1.5總結21
1.6練習21
參考書目21
第2章數據分析生命週期23
2.1數據分析生命週期概述24
2.1.1一個成功分析項目的關鍵角色24
2.1.2數據分析生命週期的背景和概述26
2.2第1階段:發現28
2.2.1學習業務領域29
2.2.2資源29
2.2.3設定問題30
2.2.4確定關鍵利益相關者30
2.2.5採訪分析發起人31
2.2.6形成初始假設32
2.2.7明確潛在數據源32
2.3第2階段:數據準備33
2.3.1準備分析沙箱34
2.3.2執 ​​行ETLT 35
2.3.3研究數據36
2.3.4數據治理37
2.3.5調查和可視化37
2.3.6數據準備階段的常用工具38
2.4第3階段:模型規劃39
2.4.1數據探索和變量選擇40
2.4.2模型的選擇41
2.4.3模型設計階段的常用工具42
2.5第4階段:模型建立42
2.5.1模型構建階段中的常用工具44
2.6第5階段:溝通結果45
2.7第6階段:實施46
2.8案例研究:全球創新網絡和分析(GINA) 49
2.8.1第1階段:發現50
2.8.2第2階段:數據準備51
2.8. 3第3階段:模型規劃51
2.8.4第4階段:模型建立51
2.8.5第5階段:溝通結果53
2.8.6第6階段:實施54
2.9總結55
2.10練習55
參考書目55
第3章使用R進行基本數據分析57
3.1 R簡介58
3.1.1 R圖形用戶界面61
3.1.2數據導入和導出63
3.1.3屬性和數據類型64
3.1.4描述性統計(descriptive statistics) 72
3.2探索性數據分析73
3.2.1在分析之前先可視化74
3.2.2臟數據77
3.2.3可視化單個變量80
3.2.4研究多個變量83
3.2.5對比數據探索和數據演示90
3.3用於評估的統計方法92
3.3 .1假設檢驗93
3.3.2均值差異94
3.3.3 Wilcoxon秩和檢驗98
3.3.4 I型和II型錯誤99
3.3.5功效和抽樣大小100
3.3.6 ANOVA 100
3.4總結104
3.5練習104
參考文獻105
第4章高級分析理論與方法:聚類107
4.1聚類概述108
4.2 k均值聚類108
4.2.1使用案例109
4.2.2方法概述110
4.2.3確定聚類簇的數量112
4.2.4診斷117
4.2.5選擇原因及註意事項118
4.3其他算法122
4.4總結122
4.5練習123
參考書目123
第5章高級分析理論與方法:關聯規則124
5.1概述125
5.2 Apriori算法127
5.3評估候選規則128
5.4關聯規則的應用129
5.5雜貨店交易示例130
5.5.1雜貨店數據集130
5.5.2生成頻繁數據集132
5.5.3規則的生成和可視化137
5.6驗證和測試143
5.7診斷143
5.8總結144
5.9練習144
參考書目145
第6章高級分析理論與方法:回歸147
6.1線性回歸148
6.1.1用例148
6.1.2模型描述149
6.1.3診斷158
6.2邏輯回歸163
6.2.1用例163
6.2.2模型描述163
6.2.3診斷165
6.3選擇理由和註意事項172
6.4其他回歸模型173
6.5總結173
6.6練習174
第7章高級分析理論與方法:分類175
7.1決策樹176
7.1.1決策樹概覽177
7.1.2通用算法181
7.1. 3決策樹算法185
7.1.4評估決策樹186
7.1.5 R中的決策樹189
7.2樸素貝葉斯193
7.2.1貝葉斯定理194
7.2.2樸素貝葉斯分類器196
7.2.3平滑198
7.2.4診斷198
7.2.5 R中的樸素貝葉斯199
7.3分類器診斷204
7.4其他分類方法208
7.5總結209
7.6練習210
參考書目210
第8章高級分析理論與方法:時間序列分析212
8.1時間序列分析概述213
8.1.1 Box-Jenkins方法214
8.2 ARIMA模型215
8.2.1自相關函數(ACF) 215
8.2.2自回歸模型216
8.2.3移動平均模型218
8.2.4 ARMA和ARIMA模型219
8.2. 5建立和評估ARIMA模型222
8.2.6選擇理由及註意事項230
8.3其他方法230
8.4總結231
8.5練習231
第9章高級分析理論與方法:文本分析232
9.1文本分析步驟234
9.2一個文本分析的示例235
9.3收集原始數據237
9.4表示文本240
9.5詞頻-逆文檔頻率(TFIDF) 245
9.6通過主題來分類文件249
9.7情感分析253
9.8獲得洞察力258
9.9總結263
9.10練習263
參考書目264
第10章高級分析技術與工具:MapReduce和Hadoop 267
10.1非結構化數據分析268
10.1.1用例268
10.1.2 MapReduce 270
10.1.3 Apache Hadoop 271
10.2 Hadoop生態系統277
10.2.1 Pig 278
10.2.2 Hive 279
10.2.3 HBase 282
10.2.4 Mahout 290
10.3 NoSQL 292
10.4總結293
10.5練習294
參考書目294
第11章高級分析技術與工具:數據庫內分析297
11.1 SQL基本要素298
11.1.1連接299
11.1.2 set運算符301
11.1.3 grouping擴展303
11.2數據庫內的文本分析307
11.3高級SQL技術311
11.3.1窗口函數311
11.3.2用戶定義函數與聚合315
11.3.3排序聚合318
11.3.4 MABlib 319
11.4總結323
11.5練習323
參考書目323
第12章結尾324
12.1溝通和實施一個分析項目325
12.2創建最終可交付成果327
12.2.1為多個受眾群體創建核心材料329
12.2.2項目目標330
12.2.3主要發現331
12.2.4方法333
12.2 .5模型描述334
12.2.6有數據支持的關鍵論點335
12.2.7模型細節336
12.2.8建議337
12.2.9關於最終演示文檔的額外提示338
12.2.10提供技術規範和代碼339
12.3數據可視化基礎340
12.3.1有數據支持的要點341
12.3.2圖的演進342
12.3.3通用表示方法348
12.3.4如何清理圖形349
12.3.5額外考慮353
12.4總結355
12.5練習355
12.6參考文獻與擴展閱讀355
參考書目356




相關書籍

自然語言處理技術入門與實戰

作者 蘭紅雲

2016-07-01

Essential Math for Data Science: Take Control of Your Data with Fundamental Linear Algebra, Probability, and Statistics

作者 Nield Thomas

2016-07-01

人工智慧

作者 張志勇 廖文華 石貴平 王勝石 游國忠

2016-07-01