實戰大數據 : MATLAB 數據挖掘詳解與實踐
內容描述
大數據時代,我們需要對各種海量數據進行篩選、清洗、挖掘,在這個過程中,獲取有效數據的方式方法和模型算法成為了整個數據挖掘過程的重點,MATLAB作為一個數據挖掘工具,如何正確和準確地使用它成為了重中之重。
針對實際應用數據挖掘技術的要求,本書既介紹了數據挖掘的基礎理論和技術,又較為詳細地介紹了各種算法以及MATLAB程序。本書共分4篇,分別介紹了數據挖掘的基本概念、技術與算法以及應用實例。期望通過大量的實例分析幫助廣大讀者掌握數據挖掘技術,並應用於實際的研究中,提高對海量數據信息的處理及挖掘能力。本書針對性和實用性強,具有較高的理論和實用價值。
本書作者就職於部隊高校,專攻數據挖掘,並應用於大量實際項目,本書同時得到了國內著名數據挖掘公司的技術支持,很多案例來自實際項目。
本書可作為高等院校電腦工程、信息工程、生物醫學工程、化學、環境、經濟、管理等學科的研究生、本科生的教材或教學參考書,亦可作為企事業單位管理者、信息分析人員、市場營銷人員和研究與開發人員的參考資料。
目錄大綱
目錄
第1章緒論1
1.1數據挖掘概述2
1.2數據挖掘的分類4
1.3數據挖掘的過程5
1.4數據挖掘的任務6
1.5數據挖掘的對象8
1.5.1數據庫8
1.5.2文本10
1.5.3圖像與視頻數據10
1.5.4 Web數據11
1.6數據挖掘建模方法11
1.6.1業務理解12
1.6.2數據理解13
1.6.3數據準備13
1.6.4建模14
1.6.5評估15
1.6.6部署16
1.7數據挖掘的應用16
1.7.1在金融領域的應用16
1.7.2在零售業中的應用17
1.7.3在電信業的應用18
1.7.4在管理中的應用19
1.7.5在化學研究領域中的應用19
1.7.6在材料研究、生產方面的應用20
1.7.7在機械故障診斷與監測中的應用21
1.7.8在醫療領域中的應用22
第2章數據挖掘算法25
2.1決策樹算法26
2.1.1決策樹基本算法27
2.1.2 ID3算法29
2.1.3 C4.5算法30
2.1.4 CART算法31
2.1.5決策樹的評價標準32
2.1.6決策樹的剪枝及優化33
2.1 .7基於matlab的決策樹分析34
2.2人工神經網絡算法41
2.2.1人工神經網 概述41
2.2.2人工神經網絡的基本模型41
2.2.3 BP神經網絡43
2.2.4 RBF神經網絡45
2.2.5 SOM神經網絡46
2.2.6反饋型神經網絡(Hopfield) 47
2.2.7基於matlab的神經網絡方法49
2.3進化算法55
2.3.1進化算法的基本原理56
2.3.2基因算法的主要步驟60
2.3.3基本遺傳算法61
2.3.4進化規划算法63
2.3.5進化策略計算64
2.3.6量子遺傳算法68
2.3.7人工免疫算法72
2.3.8基於matlab的進化算法80
2.4統計分析方法87
2.4.1假設檢驗87
2.4.2回歸分析91
2.4.3二項邏輯(logistic)回歸100
2.4. 4方差分析104
2.4.5主成分分析107
2.4.6因子分析110
2.4.7基於matlab的統計分析方法113
2.5貝葉斯網絡方法141
2.5.1貝葉斯定理、先驗和後驗142
2.5. 2貝葉斯網絡142
2.5.3貝葉斯網絡學習143
2.5.4主要貝葉斯網絡模型145
2.5.5基於matlab的貝葉斯網絡方法148
2.6支持向量機160
2.6.1支持向量機概述160
2.6.2核函數162
2.6.3基於matlab的 持向量機方法164
2.7關聯分析167
2.7.1概述167
2.7.2 Apriori關聯規則算法170
2.7.3基於分類搜索的關聯規則算法171
2.7.4時序關聯規則算法173
2.7.5多值屬性關聯規則算法174
2.7.6增量關聯規則算法175
2.7.7基於關聯規則的分類算法176
2.7.8模糊關聯分類算法177
2.7.9關聯規則的評價178
2.7.10辛普森悖論179
2.7.11基於matlab的關聯規則分析180
2.8其他數據挖掘方法182
2.8.1近鄰法182
2.8.2 K-means聚類184
2.8.3基於matlab的近鄰法及k-means聚類法187
第3章數據挖掘相關技術191
3.1數據倉庫192
3.1.1概述192
3.1.2數據倉庫設計195
3.1.3數據倉庫的開發應用199
3.1.4數據倉庫的技術管理209
3.1.5 OLAP技術210
3.1.6基於matlab的數據倉庫開發技術214
3.2模糊集理論234
3.1.1模糊集合234
3.1.2模糊關係237
3.1.3模糊聚類239
3.3.5基於matlab的模糊集處理技術244
3.3粗糙集技術255
3.3.1粗糙集理論的基本概念256
3.3 .2 分類規則的形成259
3.3.3知識的約簡259
3.3.4模糊集與粗糙集261
3.3.5基於matlab的粗糙集處理方法262
3.4目標優化技術265
3.4.1極值問題266
3.4.2無約束非線性規劃267
3.4.3有約束非線性規劃270
3.4.4大規模優化問題的分解算法270
3.4.5其他優化方法273
3.4.6基於matlab的目標優化方法274
3.5可視化技術281
3.5.1可視化技術分類282
3.5.2多維數據可視化283
3.5.3圖形的特徵分析294
3.5.4基於多元圖的圖形分類方法297
3.5.5基於色度學空間的多元圖表示299
3.5.6基於matlab的數據可視化技術300
3.6公式發現314
3.6.1概述315
3.6.2公式發現系統中的知識315
3.6.3基於matlab的公式發現319
3.7多媒體數據挖掘技術320
3.7.1文本挖掘323
3.7.2圖像挖掘331
3.7.3視頻挖掘331
3.7.4音頻挖掘332
3.7.5複合類型數據的挖掘333
3.8 Web數據挖掘技術334
3.8.1 Web內容挖掘335
3.8.2 Web結構挖掘337
3.8.3 Web使用挖掘338
第4 數據挖掘應用實戰343
4.1數據關係發現344
4.2數據統計特性344
4.3數據預處理349
4.3.1數據清理349
4.3.2數據集成與轉換351
4.3.3數據歸約與濃縮353
4.3.4數值數據的概念分層與離散化360
4.3.5例題362
4.4分類373
4.5例題376
4.6預測381
4.6.1回歸分析381
4.6.2時間序列預測模型385
4.6.3馬爾可夫鏈389
4.6.4灰色系統方法390
4.6 .5例題398
4.7聚類418
4.7.1聚類分析概述418
4.7.2聚類分析中的數據類型419
4.7.3相似性度量422
4.7.4聚類的特徵427
4.7.5聚類準則427
4.7 .6劃分方法429
4.7.7層次方法430
4.7.8基於密度的方法433
4.7.9基於網格的方法434
4.7.10基於模型的聚類方法435
4.4.11基於目標函數的方法436
4.7.12離群點檢測438
4.7.13聚類有效性445
4.7.14例題448
4.8時序數據挖掘462
4.8.1基本定義463
4.8.2時序數據挖掘參數464
4.8.3時序關聯規則464
4.8.4時間序列挖掘466
4.8.5時間序列分段線性表示46 8
4.8.6時間序列的預測469
4.8.7例題469
4.9關聯規則挖掘481
4.9.1關聯規則的類型及挖掘算法481
4.9.2基於組織進化的關聯規則挖掘481
4.9.3基於組織層次進化的關聯規則挖掘483
4.9.4多維關聯規則挖掘484
4.9.5關聯規則擴展485
4.9.6例題487
參考文獻500
作者介紹
許國根,畢業於南京大學分析化學專業,長期奮斗在一線的高校資深化學教師。為了實現“數學化學”夢想,一直致力於數學在化學中的應用研究,熱衷於MATLAB、模式識別、數據挖掘、化學計量學等相關知識的學習與應用,撰寫過多部介紹MATLAB在化學中應用技巧的書籍。