大數據挖掘及應用(Big Data Mining and Application)
內容描述
大數據挖掘及應用 王國胤劉群於洪曾憲華編著清華大學出版社 北京內容簡介本書圍繞大數據背景下的數據挖掘及應用問題,從大數據挖掘的基本概念入手,由淺入深、循序漸進地介紹了大數據挖掘分析過程中的數據準備和預處理方法、數據可視化技術、數據挖掘理論和經典算法、常用大數據分析計算平臺的編程模型、並行化程序設計技術、統計分析R語言基礎等內容。其中數據挖掘理論和經典算法不僅覆蓋了傳統的關聯分析、分類和聚類,還包括深度學習理論等數據挖掘研究和發展的潮流主題。每一章內容都盡量從不同角度進行深入淺出的剖析,還配以豐富的習題和參考文獻,對於讀者掌握大數據挖掘及應用領域的基本知識和進一步研究都具有參考價值。本書可以作為高校本科相關專業數據分析類課程教材和麵向各專業的數據科學通識教材,也可供廣大IT從業人員參考。
目錄大綱
第1章大數據挖掘及應用概論1
1.1大數據智能分析處理的普及和應用1
1.1.1雲計算1
1.1.2大數據3
1.1.3雲計算與大數據的智能應用4
1.2大數據的發展及挑戰10
1.2.1大數據的發展催生三元空間世界10
1.2.2大數據智能分析處理面臨的挑戰12
1.3數據挖掘概述14
1.3.1數據挖掘的概念14
1.3.2數據挖掘的功能15
1.3 .3數據挖掘運用的技術16
1.3.4大數據挖掘與傳統數據挖掘16
1.4大數據挖掘的計算框架17
1.4.1大數據挖掘計算框架17
1.4.2大數據挖掘處理基本流程21
1.5大數據時代“互聯網+”的未來:智能互聯23
1.6本書架構26
1.7小結27
1.8習題27
1.9參考文獻28
第2章數據認知與預處理29
2.1數據分析的定義和流程30
2.1.1如何理解和描述數據分析的問題30
2.1.2數據獲取與準備31
2.1.3數據質量評估32
2.2數據類型33
2.2.1屬性的定義33
2.2.2標稱屬性33
2.2.3二元屬性34
2.2.4序值屬性34
2.2.5數值屬性34
2.3數據的 計描述方法35
2.3.1數據的中心趨勢度量35
2.3.2數據的離散趨勢度量37
2.4數據對象關係的計算方法39
2.4.1數據相似性計算方法40
2.4.2數據相關性計算方法46
2.5數據準備48
2.5.1數據清洗與集成48
2.5.2數據歸約52
2.5.3數據轉換58
2.6數據統計分析常用工具介紹61
2.6.1Excel統計分析工具61
2.6.2SPSS統計分析工具63
2.6.3SAS統計分析工具64
2.6.4R語言統計分析工具66
2.7SPSS案例分析68
2.7.1日誌文件數據準備68
2.7.2數據錄入與編輯68
2.7.3數據清洗與轉換70
2.7.4數據方差分析72
2.7.5數據相關性分析74
2.7.6數據間距離分析74
2.8小結77
2.9習題78
2.10參考文獻79
第3章數據可視化80
3.1可視化簡介80
3.2高維數據可視化81
3.2.1降維方法82
3.2.2非降維方法84
3.3網絡數據可視化90
3.3.1節點鏈接法90
3.3.2鄰接矩陣佈局96
3.3.3混合佈局98
3.4可視化案例分析99
3.4.1案例一: China VIS 2015競賽題99
3.4.2案例二: VAST Ch allenge 2016競賽題107
3.5小結120
3.6習題121
3.7參考文獻122
第4章數據關聯分析123
4.1數據關聯分析簡介123
4.2基本概念125
4.2.1頻繁項集和關聯規則126
4.2.2閉項集和極大頻繁項集128
4.2.3稀有模式和負模式129
4.3Apriori算法130
4.3.1Apriori算法的核心思想131
4.3.2Apriori算法描述132
4.3.3改進的Apriori算法133
4.4FPGrowth算法137
4.4.1FP Growth算法的核心思想138
4.4.2FPGrowth算法描述139
4.5面向大數據的有效數據結構142
4.6關聯規則有效性的評估方法143
4.6.1關聯規則興趣度評估144
4.6.2關聯規則相關度評估144
4.6.3其他相關評估度量方法146
4.7多維關聯規則挖掘148
4.8多層關聯規則挖掘151
4.9基於Python平台的案例分析156
4.10小結158
4.11習題159
4.12參考文獻161
第5章數據分類分析163
5.1基本概念和術語163
5.1.1數據分類163
5.1.2解決分類問題的一般方法165
5.2決策樹算法166
5.2.1決策樹歸納166
5.2.2決策樹構 167
5.2.3屬性測試條件的表示方法169
5.2.4選擇佳劃分的度量171
5.2.5決策樹歸納算法175
5.2.6樹剪枝176
5.2.7決策樹歸納的特點178
5.3貝葉斯分類算法180
5.3.1貝葉斯定理181
5.3.2樸素貝葉斯分類182
5.3.3貝葉斯信念網絡184
5.4支持向量機算法185
5.4.1數據線性可分的情況185
5.4.2數據非線性可分的情況189
5.5粗糙集分類算法190
5.6分類器評估方法191
5.6.1評估分類器性能的度量192
5.6.2保持方法和隨機二次抽樣195
5.6.3交叉驗證195
5.6.4自助法195
5.6 .5使用統計顯著性檢驗選擇模型196
5.7組合分類器技術197
5.7.1組合分類方法簡介198
5.7.2裝袋198
5.7.3提升和AdaBoost199
5.7.4隨機森林200
5.7.5提高類不平衡數據的分類準確率200
5.8惰性學習法(k近鄰分類)201
5.9基於Python平台的案例分析203
5.9.1數據集準備203
5.9.2算法描述204
5.9.3算法測試206
5.10小結209
5.11習題209
5.12參考文獻211
第6章數據聚類分析214
6.1 基本概念和術語214
6.1.1聚類分析簡介215
6.1.2對聚類的基本要求215
6.1.3聚類分析方法216
6.2基於劃分的方法218
6.2.1kmeans算法218
6.2.2k中心點算法221
6.3基於層次的方法224
6.3.1凝聚的與分裂的層次聚類224
6.3.2簇間距離度量225
6.4基於密度的方法229
6.4.1傳統的密度:基於中心的方法230
6.4.2DBSCAN算法231
6.5基於概率模型的聚類方法233
6.5.1模糊聚類233
6.5.2基於概率模型的聚類235
6.5.3期望大化算法237
6.6聚類評估239
6.6.1聚類趨勢的估計239
6.6. 2聚類簇數的確定241
6.6.3聚類質量的測定242
6.7基於Python平台的案例分析245
6.7.1數據準備245
6.7.2聚類分析結果探討246
6.8小結248
6.9習題249
6.10參考文獻253
第7章深度學習255
7.1引言255
7.1.1發展背景255
7.1.2基本概念256
7.2深信網257
7.2.1玻爾茲曼機258
7.2.2受限玻爾茲曼機258
7.2.3深信網260
7.3深玻爾茲曼機264
7.4棧式自動編碼器266
7.4.1自動編碼器266
7 .4.2棧式自動編碼器267
7.5卷積神經網絡269
7.5.1卷積269
7.5.2池化270
7.5.3N訓練過程272
7.5.4N網絡構造的案例分析276
7.6深度學習開源框架278
7.6.1開源框架簡介278
7.6.2開源案例分析278
7.7深度學習應用技巧284
7.8小結285
7.9習題286
7.10參考文獻286
第8章R語言288
8.1下載和安裝R語言288
8.1.1下載R語言288
8.1.2安裝R語言288
8.2使用R語言292
8.2.1運行R語言292
8.2.2R語言常用操作294
8.2.3包的使用298
8.3R語言的數據結構300
8.3.1向量300
8.3.2矩陣301
8.3.3數組302
8.3. 4因子303
8.3.5列表304
8.3.6數據框305
8.4R語言的編程結構306
8.4.1條件語句306
8.4.2循環語句308
8.5R語言的數據挖掘和圖形繪製包310
8.6實際案例312
8.7小結314
8.8習題314
8.9參考文獻315
第9章Hadoop大數據分佈式處理生態系統316
9.1Hadoop集群基礎316
9.1.1Hadoop安裝317
9.1.2Hadoop配置319
9.2HDFS基礎操作324
9.3MapReduce並行計算框架331
9.3.1MapReduce程序實例: WordCount332
9.3.2Hadoop Streaming333
9.4基於Storm的分佈式實時計算334
9.4.1Storm簡介334
9.4.2Storm基本概念334
9.4.3Storm編程338
9.5基於Spark Streaming的分佈式實時計算346
9.5.1Spark內存計算框架346
9.5 .2Spark Streaming簡介347
9.5.3Spark Streaming編程349
9.6小結352
9.7參考文獻353
第10章大數據分析算法的並行化355
10.1並行算法設計基礎355
1 0.1.1並行算法概念355
10.1.2並行計算模型356
10.1.3並行算法設計的策略和技術360
10.2典型數據挖掘算法並行化案例362
10.2.1MR kmeans算法分析362
10.2.2Mahout聚類算法案例364
10.2.3Spark MLlib聚類算法案例369
10.3大數據分析應用案例371
10.3.1搜索引擎日誌數據分析371
10.3.2出租車軌跡數據分析374
10.3.3新聞組數據分析377
10.4小結383
10.5習題383
10.6參考文獻384
第11章大數據挖掘及應用展望385
11.1大數據時代的發展回顧與展望385
11.1.1大數據發展回顧385
11.1.2從“小”到“大”的數據分析處理387
11.1.3大數據的智能分析與挖掘389
11.2大數據中的新數據類型391
11.3大數據挖掘的新方法394
11.3.1深度學習394
11.3.2知識計算395
11.3.3社會計算396
11.3.4特異群組挖掘397
11.4未來發展趨勢398
11.5小結399
11.6參考文獻399