Python 數據挖掘與機器學習
內容描述
本書內容豐富,循序漸進,以數據挖掘框架為主線,系統地介紹了數據挖掘技術的基本原理、方法和實踐應用,全面反映了數據挖掘的理論體系和應用的最新進展。課程既討論數據挖掘的基本理論知識和框架體系結構,又介紹了數據挖掘算法的Python實現與應用,強調了理論與實踐相結合,基礎知識與前沿發展相結合。本書可作為電腦數據科學相關專業高年級本科生、碩士研究生的軟件挖掘教材,同時也可以作為對Python數據挖掘感興趣讀者的自學參考書。
目錄大綱
目錄
源碼下載
第1章緒論
1.1數據挖掘簡介
1.2數據分析與數據挖掘
1.3數據挖掘的主要任務
1.3.1關聯分析
1.3.2數據建模預測
1.3.3聚類分析
1.3.4離群點檢測
1.4數據挖掘的數據源
1.4.1數據庫數據
1.4.2數據倉庫
1.4.3事務數據庫
1.4.4其他類型數據
1.5數據挖掘使用的技術
1.5.1統計學
1.5.2機器學習
1.5.3數據庫管理系統與數據倉庫
1.6數據挖掘存在的主要問題
1.7數據挖掘建模的常用工具
1.7.1商用工具
1.7.2開源工具
1.8為何選用Python進行數據挖掘
1.9Python數據挖掘常用庫
1.10Jupyter Notebook的使用
1.11小結
習題1
第2章Python數據分析與挖掘基礎
2.1Python程序概述
2.1.1基礎數據類型
2.1.2變量和賦值
2.1.3運算符和表達式
2.1.4字符串
2.1.5流程控制
2.1.6函數
2.2內建數據結構
2.2.1列表
2.2.2元組
2.2.3字典
2.2.4集合
2.3NumPy數值運算基礎
2.3.1創建數組對象
2.3.2ndarray對象屬性和數據轉換
2.3.3生成隨機數
2.3.4數組變換
2.3.5數組的索引和切片
2.3.6數組的運算
2.3.7NumPy中的數據統計與分析
2.4Pandas統計分析基礎
2.4.1Pandas中的數據結構
2.4.2索引對象
2.4.3查看DataFrame的常用屬性
2.4.4DataFrame的數據查詢與編輯
2.4.5Pandas數據運算
2.4.6函數應用與映射
2.4.7排序
2.4.8匯總與統計
2.4.9數據分組與聚合
2.4.10Pandas數據讀取與存儲
2.5Matplotlib圖表繪制基礎
2.5.1Matplotlib簡介
2.5.2Matplotlib繪圖基礎
2.5.3設置pyplot的動態rc參數
2.5.4文本註解
2.5.5pyplot中的常用繪圖
2.6scikitlearn
2.6.1scikitlearn簡介
2.6.2scikitlearn中的數據集
2.6.3scikitlearn的主要功能
2.7小結
習題2
第3章認識數據
3.1屬性及其類型
3.1.1屬性
3.1.2屬性類型
3.2數據的基本統計描述
3.2.1中心趨勢度量
3.2.2數據散佈度量
3.3數據可視化
3.3.1基於像素的可視化技術
3.3.2幾何投影可視化技術
3.3.3基於圖符的可視化技術
3.3.4層次可視化技術
3.3.5可視化復雜對象和關系
3.3.6高維數據可視化
3.3.7Python可視化
3.4數據對象的相似性度量
3.4.1數據矩陣和相異性矩陣
3.4.2標稱屬性的相似性度量
3.4.3二元屬性的相似性度量
3.4.4數值屬性的相似性度量
3.4.5序數屬性的相似性度量
3.4.6混合類型屬性的相似性
3.4.7餘弦相似性
3.4.8距離度量Python實現
3.5小結
習題3
第4章數據預處理
4.1數據預處理的必要性
4.1.1原始數據中存在的問題
4.1.2數據質量要求
4.2數據清洗
4.2.1數據清洗方法
4.2.2利用Pandas進行數據清洗
4.3數據集成
4.3.1數據集成過程中的關鍵問題
4.3.2利用Pandas合並數據
4.4數據標準化
4.4.1離差標準化數據
4.4.2標準差標準化數據
4.5數據歸約
4.5.1維歸約
4.5.2數量歸約
4.5.3數據壓縮
4.6數據變換與數據離散化
4.6.1數據變換的策略
4.6.2Python數據變換與離散化
4.7利用scikitlearn進行數據預處理
4.8小結
習題4
第5章回歸分析
5.1回歸分析概述
5.1.1回歸分析的定義與分類
5.1.2回歸分析的過程
5.2一元線性回歸分析
5.2.1一元線性回歸方法
5.2.2一元線性回歸模型的參數估計
5.2.3一元線性回歸模型的誤差方差估計
5.2.4一元回歸模型的主要統計檢驗
5.2.5一元線性回歸的Python實現
5.3多元線性回歸
5.3.1多元線性回歸模型
5.3.2多元線性回歸模型的參數估計
5.3.3多元線性回歸的假設檢驗及其評價
5.3.4多元線性回歸的Python實現
5.4邏輯回歸
5.4.1邏輯回歸模型
5.4.2邏輯回歸的Python實現
5.5其他回歸分析
5.5.1多項式回歸
5.5.2嶺回歸
5.5.3Lasso回歸
5.5.4逐步回歸
5.6小結
習題5
第6章關聯規則挖掘
6.1關聯規則分析概述
6.2頻繁項集、閉項集和關聯規則
6.3頻繁項集挖掘方法
6.3.1Apriori算法
6.3.2由頻繁項集產生關聯規則
6.3.3提高Apriori算法的效率
6.3.4頻繁模式增長算法
6.3.5使用垂直數據格式挖掘頻繁項集
6.4關聯模式評估方法
6.4.1強關聯規則不一定是有趣的
6.4.2從關聯分析到相關分析
6.5Apriori算法應用
6.6小結
習題6
第7章分類
7.1分類概述
7.2決策樹歸納
7.2.1決策樹原理
7.2.2ID3算法
7.2.3C4.5算法
7.2.4CART算法
7.2.5樹剪枝
7.2.6決策樹應用
7.3K近鄰算法
7.3.1算法原理
7.3.2Python算法實現
7.4支持向量機
7.4.1算法原理
7.4.2Python算法實現
7.5樸素貝葉斯分類
7.5.1算法原理
7.5.2樸素貝葉斯分類
7.5.3高斯樸素貝葉斯分類
7.5.4多項式樸素貝葉斯分類
7.5.5樸素貝葉斯分類應用
7.6模型評估與選擇
7.6.1分類器性能的度量
7.6.2模型選擇
7.7組合分類
7.7.1組合分類方法簡介
7.7.2袋裝
7.7.3提升和AdaBoost
7.7.4隨機森林
7.8小結
習題7
第8章聚類
8.1聚類分析概述
8.1.1聚類分析的概念
8.1.2聚類算法分類
8.2KMeans聚類
8.2.1算法原理
8.2.2算法改進
8.2.3KMeans算法實現
8.3層次聚類
8.3.1算法原理
8.3.2簇間的距離度量
8.3.3分裂層次聚類
8.3.4凝聚層次聚類
8.3.5層次聚類應用
8.4基於密度的聚類
8.4.1算法原理
8.4.2算法改進
8.4.3DBSCAN算法實現
8.5其他聚類方法
8.5.1STING聚類
8.5.2概念聚類
8.5.3模糊聚類
8.6聚類評估
8.6.1聚類趨勢的估計
8.6.2聚類簇數的確定
8.6.3聚類質量的測定
8.7小結
習題8
第9章神經網絡與深度學習
9.1神經網絡基礎
9.1.1神經元模型
9.1.2感知機與多層網絡
9.2BP神經網絡
9.2.1多層前饋神經網絡
9.2.2後向傳播算法
9.2.3BP神經網絡應用
9.3深度學習
9.3.1深度學習概述
9.3.2常用的深度學習算法
9.4小結
習題9
第10章離群點檢測
10.1離群點概述
10.1.1離群點的概念
10.1.2離群點的類型
10.1.3離群點檢測的挑戰
10.2離群點的檢測
10.2.1基於統計學的離群點檢測
10.2.2基於鄰近性的離群點檢測
10.2.3基於聚類的離群點檢測
10.2.4基於分類的離群點檢測
10.3scikitlearn中的異常檢測方法
10.4小結
習題10
第11章數據挖掘案例
11.1良/惡性乳腺腫瘤預測
11.2泰坦尼克號乘客生還預測
11.3圖像的聚類分割
11.4小結
參考文獻
作者介紹
魏偉一,控制理論與控制工程專業博士,碩士生導師。
主要面向本科生/研究生講授數字圖像處理、數據分析和挖掘等課程,先後參與完成國家和省部級項目多項,發表論文30餘篇,研究方向為數字圖像處理、機器學習和圖像取證。