數據挖掘:概念與技術, 3/e (Data Mining: Practical Machine Learning Tools and Techniques, 3/e)

數據挖掘:概念與技術, 3/e (Data Mining: Practical Machine Learning Tools and Techniques, 3/e)

作者: 韓家煒 Micheline Kamber 裴健
出版社: 機械工業
出版在: 2012-08-01
ISBN-13: 9787111391401
ISBN-10: 7111391403
裝訂格式: 平裝
總頁數: 468 頁




內容描述


<內容簡介>
《數據挖掘(概念與技術原書第3版)》完整全面地講述數據挖掘的概念、方法、技術和最新研究進展。本書對前兩版做了全面修訂,加強和重新組織了全書的技術內容,重點論述了數據預處理、頻繁模式挖掘、分類和聚類等的內容,還全面講述了OLAP和離群點檢測,並研討了挖掘網絡、複雜數據類型以及重要應用領域。
《數據挖掘(概念與技術原書第3版)》是數據挖掘和知識發現領域內的所有教師、研究人員、開發人員和用戶都必讀的參考書,是一本適用於數據分析、數據挖掘和知識發現課程的優秀教材,可以用做高年級本科生或者一年級研究生的數據挖掘導論教材。本書由韓家煒等著。  

<章節目錄>
出版者的話
中文版序
譯者序
譯者簡介
第3版序
第2版序
前言
致謝
作者簡介
第1章  引論
1.1  為什麼進行數據挖掘
1.1.1  邁向信息時代
1.1.2  數據挖掘是信息技術的進化
1.2  什麼是數據挖掘
1.3  可以挖掘什麼類型的數據
1.3.1  數據庫數據
1.3.2  數據倉庫
1.3.3  事務數據
1.3.4  其他類型的數據
1.4  可以挖掘什麼類型的模式
1.4.1  類/概念描述:特徵化與區分
1.4.2  挖掘頻繁模式、關聯和相關性
1.4.3  用於預測分析的分類與回歸
1.4.4  聚類分析
1.4.5  離群點分析
1.4.6  所有模式都是有趣的嗎
1.5  使用什麼技術
1.5.1  統計學
1.5.2  機器學習
1.5.3  數據庫系統與數據倉庫
1.5.4  信息檢索
1.6  面向什麼類型的應用
1.6.1  商務智能
1.6.2  Web搜索引擎
1.7  數據挖掘的主要問題
1.7.1  挖掘方法
1.7.2  用戶界面
1.7.3  有效性和可伸縮性
1.7.4  數據庫類型的多樣性
1.7.5  數據挖掘與社會
1.8  小結
1.9  習題
1.10  文獻註釋
第2章  認識數據
2.1  數據對象與屬性類型
2.1.1  什麼是屬性
2.1.2  標稱屬性
2.1.3  二元屬性
2.1.4  序數屬性
2.1.5  數值屬性
2.1.6  離散屬性與連續屬性
2.2  數據的基本統計描述
2.2.1  中心趨勢度量:均值、中位數和眾數
2.2.2  度量數據散佈:極差、四分位數、方差、標準差和四分位數極差
2.2.3  數據的基本統計描述的圖形顯示
2.3  數據可視化
2.3.1  基於像素的可視化技術
2.3.2  幾何投影可視化技術
2.3.3  基於圖符的可視化技術
2.3.4  層次可視化技術
2.3.5  可視化複雜對象和關係
2.4  度量數據的相似性和相異性
2.4.1  數據矩陣與相異性矩陣
2.4.2  標稱屬性的鄰近性度量
2.4.3  二元屬性的鄰近性度量
2.4.4  數值屬性的相異性:閔可夫斯基距離
2.4.5  序數屬性的鄰近性度量
2.4.6  混合類型屬性的相異性
2.4.7  餘弦相似性
2.5  小結
2.6  習題
2.7  文獻註釋
第3章  數據預處理
3.1  數據預處理:概述
3.1.1  數據質量:為什麼要對數據預處理
3.1.2  數據預處理的主要任務
3.2  數據清理
3.2.1  缺失值
3.2.2  噪聲數據
3.2.3  數據清理作為一個過程
3.3  數據集成
3.3.1  實體識別問題
3.3.2  冗餘和相關分析
3.3.3  元組重複
3.3.4  數據值衝突的檢測與處理
3.4  數據歸約
3.4.1  數據歸約策略概述
3.4.2  小波變換
3.4.3  主成分分析
3.4.4  屬性子集選擇
3.4.5  回歸和對數線性模型:參數化數據歸約
3.4.6  直方圖
3.4.7  聚類
3.4.8  抽樣
3.4.9  數據立方體聚集
3.5  數據變換與數據離散化
3.5.1  數據變換策略概述
3.5.2  通過規範化變換數據
3.5.3  通過分箱離散化
3.5.4  通過直方圖分析離散化
3.5.5  通過聚類、決策樹和相關分析離散化
3.5.6  標稱數據的概念分層產生
3.6  小結
3.7  習題
3.8  文獻註釋
第4章  數據倉庫與聯機分析處理
4.1  數據倉庫:基本概念
4.1.1  什麼是數據倉庫
4.1.2  操作數據庫系統與數據倉庫的區別
4.1.3  為什麼需要分離的數據倉庫
4.1.4  數據倉庫:一種多層體系結構
4.1.5  數據倉庫模型:企業倉庫、數據集市和虛擬倉庫
4.1.6  數據提取、變換和裝入
4.1.7  元數據庫
4.2  數據倉庫建模:數據立方體與OLAP
4.2.1  數據立方體:一種多維數據模型
4.2.2  星形、雪花形和事實星座:多維數據模型的模式
4.2.3  維:概念分層的作用
4.2.4  度量的分類和計算
4.2.5  典型的OLAP操作
4.2.6  查詢多維數據庫的星網查詢模型
4.3  數據倉庫的設計與使用
4.3.1  數據倉庫的設計的商務分析框架
4.3.2  數據倉庫的設計過程
4.3.3  數據倉庫用於信息處理
4.3.4  從聯機分析處理到多維數據挖掘
4.4  數據倉庫的實現
4.4.1  數據立方體的有效計算:概述
4.4.2  索引OLAP數據:位圖索引和連接索引
4.4.3  OLAP查詢的有效處理
4.4.4  OLAP服務器結構:ROLAP、MOLAP、HOLAP的比較
4.5  數據泛化:面向屬性的歸納
4.5.1  數據特徵的面向屬性的歸納
4.5.2  面向屬性歸納的有效實現
4.5.3  類比較的面向屬性歸納
4.6  小結
4.7  習題
4.8  文獻註釋
第5章  數據立方體技術
5.1  數據立方體計算:基本概念
5.1.1  立方體物化:完全立方體、冰山立方體、閉立方體和立方體外殼
5.1.2  數據立方體計算的一般策略
5.2  數據立方體計算方法
5.2.1  完全立方體計算的多路數組聚集
5.2.2  BUC:從頂點方體向下計算冰山立方體
5.2.3  Star-Cubing:使用動態星樹結構計算冰山立方體
5.2.4  為快速高維OLAP預計算殼片段
5.3  使用探索立方體技術處理高級查詢
5.3.1  抽樣立方體:樣本數據上基於OLAP的挖掘
5.3.2  排序立方體:top-k查詢的有效計算
5.4  數據立方體空間的多維數據分析
5.4.1  預測立方體:立方體空間的預測挖掘
5.4.2  多特徵立方體:多粒度上的複雜聚集
5.4.3  基於異常的、發現驅動的立方體空間探查
5.5  小結
5.6  習題
5.7  文獻註釋
第6章  挖掘頻繁模式、關聯和相關性:基本概念和方法
6.1  基本概念
6.1.1  購物籃分析:一個誘發例子
6.1.2  頻繁項集、閉項集和關聯規則
6.2  頻繁項集挖掘方法
6.2.1  Apriori演算法:通過限制候選產生髮現頻繁項集
6.2.2  由頻繁項集產生關聯規則
6.2.3  提高Apriori演算法的效率
6.2.4  挖掘頻繁項集的模式增長方法
6.2.5  使用垂直數據格式挖掘頻繁項集
6.2.6  挖掘閉模式和極大模式
6.3  哪些模式是有趣的:模式評估方法
6.3.1  強規則不一定是有趣的
6.3.2  從關聯分析到相關分析
6.3.3  模式評估度量比較
6.4  小結
6.5  習題
6.6  文獻註釋
第7章  高級模式挖掘
7.1  模式挖掘:一個路線圖
7.2  多層、多維空間中的模式挖掘
7.2.1  挖掘多層關聯規則
7.2.2  挖掘多維關聯規則
7.2.3  挖掘量化關聯規則
7.2.4  挖掘稀有模式和負模式
7.3  基於約束的頻繁模式挖掘
7.3.1  關聯規則的元規則制導挖掘
7.3.2  基於約束的模式產生:模式空間剪枝和數據空間剪枝
7.4  挖掘高維數據和巨型模式
7.5  挖掘壓縮或近似模式
7.5.1  通過模式聚類挖掘壓縮模式
7.5.2  提取感知冗餘的top-k模式
7.6  模式探索與應用
7.6.1  頻繁模式的語義註解
7.6.2  模式挖掘的應用
7.7  小結
7.8  習題
7.9  文獻註釋
第8章  分類:基本概念
8.1  基本概念
8.1.1  什麼是分類
8.1.2  分類的一般方法
8.2  決策樹歸納
8.2.1  決策樹歸納
8.2.2  屬性選擇度量
8.2.3  樹剪枝
8.2.4  可伸縮性與決策樹歸納
8.2.5  決策樹歸納的可視化挖掘
8.3  貝葉斯分類方法
8.3.1  貝葉斯定理
8.3.2  樸素貝葉斯分類
8.4  基於規則的分類
8.4.1  使用IF-THEN規則分類
8.4.2  由決策樹提取規則
8.4.3  使用順序覆蓋演算法的規則歸納
8.5  模型評估與選擇
8.5.1  評估分類器性能的度量
8.5.2  保持方法和隨機二次抽樣
8.5.3  交叉驗證
8.5.4  自助法
8.5.5  使用統計顯著性檢驗選擇模型
8.5.6  基於成本效益和ROC曲線比較分類器
8.6  提高分類準確率的技術
8.6.1  組合分類方法簡介
8.6.2  裝袋
8.6.3  提升和AdaBoost
8.6.4  隨機森林
8.6.5  提高類不平衡數據的分類準確率
8.7  小結
8.8  習題
8.9  文獻註釋
第9章  分類:高級方法
9.1  貝葉斯信念網絡
9.1.1  概念和機制
9.1.2  訓練貝葉斯信念網絡
9.2  用後向傳播分類
9.2.1  多層前饋神經網絡
9.2.2  定義網絡拓撲
9.2.3  後向傳播
9.2.4  黑盒內部:後向傳播和可解釋性
9.3  支持向量機
9.3.1  數據線性可分的情況
9.3.2  數據非線性可分的情況
9.4  使用頻繁模式分類
9.4.1  關聯分類
9.4.2  基於有區別力的頻繁模式分類
9.5  惰性學習法(或從近鄰學習)
9.5.1  k-最近鄰分類
9.5.2  基於案例的推理
9.6  其他分類方法
9.6.1  遺傳演算法
9.6.2  粗糙集方法
9.6.3  模糊集方法
9.7  關於分類的其他問題
9.7.1  多類分類
9.7.2  半監督分類
9.7.3  主動學習
9.7.4  遷移學習
9.8  小結
9.9  習題
9.10  文獻註釋
第10章  聚類分析:基本概念和方法
10.1  聚類分析
10.1.1  什麼是聚類分析
10.1.2  對聚類分析的要求
10.1.3  基本聚類方法概述
10.2  劃分方法
10.2.1  k-均值:一種基於形心的技術
10.2.2  k-中心點:一種基於代表對象的技術
10.3  層次方法
10.3.1  凝聚的與分裂的層次聚類
10.3.2  演算法方法的距離度量
10.3.3  BIRCH:使用聚類特徵樹的多階段聚類
10.3.4  Chameleon:使用動態建模的多階段層次聚類
10.3.5  概率層次聚類
10.4  基於密度的方法
10.4.1  DBSCAN:一種基於高密度連通區域的基於密度的聚類
10.4.2  OPTICS:通過點排序識別聚類結構
10.4.3  DENCLUE:基於密度分佈函數的聚類
10.5  基於網格的方法
10.5.1  STING:統計信息網格
10.5.2  CLIQUE:一種類似於Apriori的子空間聚類方法
10.6  聚類評估
10.6.1  估計聚類趨勢
10.6.2  確定簇數
10.6.3  測定聚類質量
10.7  小結
10.8  習題
10.9  文獻註釋
第11章  高級聚類分析
11.1  基於概率模型的聚類
11.1.1  模糊簇
11.1.2  基於概率模型的聚類
11.1.3  期望最大化演算法
11.2  聚類高維數據
11.2.1  聚類高維數據:問題、挑戰和主要方法
11.2.2  子空間聚類方法
11.2.3  雙聚類
11.2.4  維歸約方法和譜聚類
11.3  聚類圖和網絡數據
11.3.1  應用與挑戰
11.3.2  相似性度量
11.3.3  圖聚類方法
11.4  具有約束的聚類
11.4.1  約束的分類
11.4.2  具有約束的聚類方法
11.5  小結
11.6  習題
11.7  文獻註釋
第12章  離群點檢測
12.1  離群點和離群點分析
12.1.1  什麼是離群點
12.1.2  離群點的類型
12.1.3  離群點檢測的挑戰
12.2  離群點檢測方法
12.2.1  監督、半監督和無監督方法
12.2.2  統計方法、基於鄰近性的方法和基於聚類的方法
12.3  統計學方法
12.3.1  參數方法
12.3.2  非參數方法
12.4  基於鄰近性的方法
12.4.1  基於距離的離群點檢測和嵌套循環方法
12.4.2  基於網格的方法
12.4.3  基於密度的離群點檢測
12.5  基於聚類的方法
12.6  基於分類的方法
12.7  挖掘情境離群點和集體離群點
12.7.1  把情境離群點檢測轉換成傳統的離群點檢測
12.7.2  關於情境對正常行為建模
12.7.3  挖掘集體離群點
12.8  高維數據中的離群點檢測
12.8.1  擴充的傳統離群點檢測
12.8.2  發現子空間中的離群點
12.8.3  高維離群點建模
12.9  小結
12.10  習題
12.11  文獻註釋
第13章  數據挖掘的發展趨勢和研究前沿
13.1  挖掘複雜的數據類型
13.1.1  挖掘序列數據:時間序列、符號序列和生物學序列
13.1.2  挖掘圖和網絡
13.1.3  挖掘其他類型的數據
13.2  數據挖掘的其他方法
13.2.1  統計學數據挖掘
13.2.2  關於數據挖掘基礎的觀點
13.2.3  可視和聽覺數據挖掘
13.3  數據挖掘應用
13.3.1  金融數據分析的數據挖掘
13.3.2  零售和電信業的數據挖掘
13.3.3  科學與工程數據挖掘
13.3.4  入侵檢測和預防數據挖掘
13.3.5  數據挖掘與推薦系統
13.4  數據挖掘與社會
13.4.1  普適的和無形的數據挖掘
13.4.2  數據挖掘的隱私、安全和社會影響
13.5  數據挖掘的發展趨勢
13.6  小結
13.7  習題
13.8  文獻註釋
參考文獻
索引  

<作者介紹>
(美)韓家煒|譯者:範明//孟小峰
Jiawei Han(韓家煒),是伊利諾伊大學厄巴納-尚佩恩分校電腦科學系的Bliss教授。他因知識發現和數據挖掘研究方面的貢獻而獲得許多獎勵,包括ACM SIGKDD創新獎(2004)、IEEE電腦學會技術成就獎(2005)和IEEE W.Wallace McDowell獎(2009)。他是ACM和IEEE會士。他還擔任《ACM Transactions on Knowledge Discovery from Data》的執行主編(2006—2011)和許多雜誌的編委,包括《IEEE Transactions on Knowledge and Data Engineering》和《Data Mining Knowledge Discovery》。




相關書籍

Minding the Machines: Building and Leading Data Science and Analytics Teams

作者 Adamson Jeremy

2012-08-01

Practical Rust Projects: Building Game, Physical Computing, and Machine Learning Applications

作者 Lyu Shing

2012-08-01

流暢的 Python|清晰、簡潔、有效的程式設計 (Fluent Python)

作者 Luciano Ramalho 賴屹民 譯

2012-08-01