Python 數據分析與挖掘實戰, 2/e
內容描述
本書是Python數據分析與挖掘領域的公認的事實標準,第1版銷售超過10萬冊,銷售勢頭依然強勁,被國內100餘所高等院校採用為教材,同時也被廣大數據科學工作者奉為經典。
作者在大數據挖掘與分析等領域有10餘年的工程實踐、教學和創辦企業的經驗,不僅掌握行業的最新技術和實踐方法,而且洞悉學生和老師的需求與痛點,這為本書的內容和形式提供了強有力的保障,這是本書第1版能大獲成功的關鍵因素。
全書共13章,分為三個部分,從技術理論、工程實踐和進階提升三個維度對數據分析與挖掘進行了詳細的講解。
第一部分 基礎篇(第1~5章)
主要講解了Python數據分析與挖掘的工具和技術理論,包括數據挖掘的基礎知識、Python數據挖掘與建模工具、數據挖掘的建模過程,以及挖掘建模的常用算法和原理等內容。
第二部分 實戰篇(第6~12章)
通過工程實踐案例講解了數據挖掘技術在金融、航空、零售、能源、製造、電商等行業的應用。在案例組織結構上,本書按照“介紹案例背景與挖掘目標→闡述分析方法與過程→完成模型構建”的順序進行,在建模過程關鍵環節,穿插程序實現代碼。最後,通過上機實踐加深對案例應用中的數據挖掘技術的理解。
第三部分 提高篇(第13章)
重點講解了基於Python引擎的開源數據挖掘建模平臺(TipDM)的功能和使用方法,以航空公司客戶價值分析為案例,介紹瞭如何使用該平臺快速搭建數據分析與挖掘工程。
本書不僅提供TipDM這樣的上機實踐環境,而且還提供配套的案例建模數據、Python源代碼、教學PPT。
在數字化轉型的時代大浪潮之下,數據已經成為新經濟的核心生產要素,如何向數據要價值和效率成為關鍵。數據分析與挖掘是一切數據工作的基礎,這也是為何相關崗位的從業人員供不應求的主要原因。
這本書第1版2015年出版,恰逢整個行業處於初始爆發期,加上本書作者在企業一線和教學一線有10餘年的經驗,不僅精通行業最新技術,而且深諳讀者需求,所以上市後在時代趨勢和優質內容的雙重加持下,取得了非常好的銷售成績。累計銷售已經超過10萬冊,而且銷售勢頭依然十分強勁,是該領域公認的經典著作。
第2版在第1版的基礎上做了較多的優化和補充,主要如下:
基於Python 3.6對全書代碼和相關內容進行了全面升級;
對部分不常用的知識點進行了刪減;
對一些新技術和知識點進行了補充;
對案例內容和寫作方式進行了優化;
採納了部分讀者對第1版提出的改進意見
……
通過這次升級,我們不僅希望給廣大讀者帶去更好的內容,同時也希望能呈現更好的閱讀體驗。
目錄大綱
前言
基礎篇
第1章數據挖掘基礎2
1.1某知名連鎖餐飲企業的困惑2
1.2從餐飲服務到數據挖掘4
1.3數據挖掘的基本任務5
1.4數據挖掘建模過程5
1.4.1定義挖掘目標6
1.4. 2數據取樣6
1.4.3數據探索7
1.4.4數據預處理8
1.4.5挖掘建模8
1.4.6模型評價8
1.5常用數據挖掘建模工具9
1.6小結11
第2章Python數據分析簡介12
2.1搭建Python開發平台14
2.1.1所要考慮的問題14
2.1.2基礎平台的搭建14
2.2 Python使用入門16
2.2.1運行方式16
2.2.2基本命令17
2.2.3數據結構19
2.2.4庫的導入與添加24
2.3 Python數據分析工具26
2.3.1 NumPy 27
2.3.2 SciPy 28
2.3.3 Matplotlib 29
2.3. 4 pandas 31
2.3.5 StatsModels 33
2.3.6 scikit-learn 33
2.3.7 Keras 34
2.3.8 Gensim 36
2.4配套附件使用設置37
2.5小結38
第3章數據探索39
3.1數據質量分析39
3.1.1缺失值分析40
3.1.2異常值分析40
3.1.3一致性分析44
3.2數據特徵分析44
3.2.1分佈分析44
3.2.2對比分析48
3.2.3統計量分析51
3.2.4週期性分析54
3.2.5貢獻度分析55
3.2.6相關性分析58
3.3 Python主要數據探索函數62
3.3.1基本統計特徵函數62
3.3.2拓展統計特徵函數66
3.3.3統計繪圖函數67
3.4小結74
第4章數據預處理75
4.1數據清洗75
4.1.1缺失值處理75
4.1.2異常值處理80
4.2數據集成80
4.2.1實體識別81
4.2.2冗餘屬性識別81
4.2.3數據變換81
4.2.4簡單函數變換81
4.2.5規範化82
4.2.6連續屬性離散化84
4.2.7屬性構造87
4.2.8小波變換88
4.3數據歸約91
4.3.1屬性歸約91
4.3.2數值歸約95
4.4 Python主要數據預處理函數98
4.5小結101
第5章挖掘建模102
5.1分類與預測102
5.1 .1實現過程103
5.1.2常用的分類與預測算法103
5.1.3回歸分析104
5.1.4決策樹108
5.1.5人工神經網絡115
5.1.6分類與預測算法評價120
5.1.7 Python分類預測模型特點125
5.2聚類分析125
5.2.1常用聚類分析算法126
5.2.2 K-Means聚類算法127
5.2 .3聚類分析算法評價132
5.2.4 Python主要聚類分析算法133
5.3關聯規則135
5.3.1常用關聯規則算法136
5.3.2 Apriori算法136
5.4時序模式142
5.4.1時間序列算法142
5.4.2時間序列的預處理143
5.4.3平穩時間序列分析145
5.4.4非平穩時間序列分析148
5.4.5 Python主要時序模式算法156
5.5離群點檢測159
5.5.1離群點的成因及類型160
5.5 .2離群點檢測方法160
5.5.3基於模型的離群點檢測方法161
5.5.4基於聚類的離群點檢測方法164
5.6小結167
實戰篇
第6章財政收入影響因素分析及預測170
6.1背景與挖掘目標170
6.2分析方法與過程171
6.2.1分析步驟與流程172
6.2.2數據探索分析172
6.2.3數據預處理176
6.2.4模型構建178
6.3上機實驗184
6.4拓展思考185
6.5小結186
第7章航空公司客戶價值分析187
7.1背景與挖掘目標187
7.2分析方法與過程188
7.2.1分析步驟與流程189
7.2.2數據探索分析189
7.2.3數據預處理200
7.2.4模型構建207
7.2.5模型應用212
7.3上機實驗214
7.4拓展思考215
7.5小結216
第8章商品零售購物籃分析217
8.1背景與挖掘目標217
8.2分析方法與過程218
8.2.1數據探索分析219
8.2.2數據預處理224
8.2.3模型構建226
8.3上機實驗232
8.4拓展思考233
8.5小結233
第9章基於水色圖像的水質評價234
9.1背景與挖掘目標234
9.2分析方法與過程235
9.2.1分析步驟與流程236
9.2.2數據預處理236
9.2.3模型構建240
9.2.4水質評價241
9.3上機實驗242
9.4拓展思考242
9.5小結243
第10章家用熱水器用戶行為分析與事件識別244
10.1背景與挖掘目標244
10.2分析方法與過程245
10.2.1數據探索分析246
10.2.2數據預處理249
10.2.3模型構建260
10.2.4模型檢驗261
10.3上機實驗262
10.4拓展思考264
10.5小結265
第11章電子商務網站用戶行為分析及服務推薦266
11.1背景與挖掘目標266
11.2分析方法與過程267
11.2.1分析步驟與流程267
11.2.2數據抽取269
11.2.3數據探索分析270
11.2.4數據預處理279
11.2.5構建智能推薦模型283
11.3上機實驗291
11.4拓展思考293
11.5小結293
第12章電商產品評論數據情感分析294
12.1背景與挖掘目標294
12.2分析方法與過程295
12.2.1評論預處理296
12.2.2評論分詞297
12.2.3構建模型303
12.3上機實驗315
12.4拓展思考316
12.5小結318
提高篇
第13章基於Python引擎的開源數據挖掘建模平台(TipDM) 320
13.1平台簡介321
13.1.1模板321
13.1.2數據源322
13.1.3工程323
13.1.4系統組件324
13.1.5 TipDM數據挖掘建模平台的本地化部署326
13.2快速構建數據挖掘工程327
13.2.1導入數據329
13.2.2配置輸入源組件331
13.2.3配置缺失值處理組件332
13.2.4配置記錄選擇組件334
13.2.5配置數據標準化組件334
13.2.6配置K-Means組件336
13.3小結339
作者介紹
張良均
資深大數據挖掘與分析專家、模式識別專家、AI技術專家。有10餘年大數據挖掘與分析經驗,擅長Python、R、Hadoop、Matlab等技術實現的數據挖掘與分析,對機器學習等AI技術驅動的數據分析也有深入研究。
為電信、電力、政府、互聯網、生產製造、零售、銀行、生物、化工、醫藥等多個行業上百家大型企業提供過數據挖掘應用與諮詢服務,實踐經驗非常豐富。
華南師範大學、中南財經政法大學、廣東工業大學、西安理工大學、廣西科技大學、重慶交通大學、桂林電子科技大學等校外碩導或兼職教授。
撰寫了《R語言數據分析與挖掘實戰》《數據挖掘:實用案例分析》《Hadoop大數據分析與挖掘實戰》等10餘部暢銷書,累計銷售超過30萬冊。