Python 數據分析與可視化
內容描述
使用Python進行數據分析與可視化是十分便利且高效的,因此Python被認為是最優秀的數據分析工具之一。本書從理論和實戰兩個角度對數據分析與可視化和Python工具進行了介紹。本書採用理論分析和Python編程實戰相結合的形式,按照數據分析與可視化的基本步驟,數據分析與可視化的基本理論知識和相應的Python庫進行了詳細的介紹,讓讀者能夠在瞭解基本理論知識的同時快速上手實現數據分析與可視化的程序。
本書適合Python初學者、數據分析從業人員以及高等院校電腦科學、軟件工程、大數據、人工智能等相關專業的師生閱讀。
目錄大綱
第1章數據分析是什麼1
1.1數據分析與數據挖掘的關係1
1.2機器學習與數據分析的關係1
1.3數據分析的基本步驟2
1.4 Python和數據分析2
1.5本章小結3
第2章Python——從了解Python開始4
2.1 Python及pandas、scikit-learn、Matplotlib的安裝4
2.1.1 Windows操作系統下Python的安裝4
2.1.2 macOS下Python的安裝5
2.1.3 pandas、scikit-learn和Matplotlib的安裝5
2.1.4使用科學計算發行版Python進行快速安裝5
2.2 Python基礎知識6
2.2.1縮進6
2. 2.2模塊化的系統7
2.2.3註釋7
2.2.4語法7
2.3重要的Python庫7
2.3.1 pandas 7
2.3.2 scikit-learn 8
2.3. 3 Matplotlib 8
2.3.4其他8
2.4 Jupyter 9
2.5本章小結9
第3章數據預處理——不了解數據,一切都是空談10
3.1了解數據10
3.2數據質量12
3.2.1完整性12
3.2.2一致性13
3.2.3準確性14
3.2.4及時性14
3.3數據清洗14
3.4特徵工程16
3.4.1特徵選擇16
3.4.2特徵構建16
3.4.3特徵提取17
3.5本章小結17
第4章NumPy——數據分析基礎工具18
4.1多維數組對象:ndarray對象18
4.1.1 ndarray對象的創建19
4.1.2 ndarray對象的數據類型21
4.2 ndarray對象的索引、切片和迭代21
4.3 ndarray對象的shape操作23
4.4 ndarray對象的基礎操作23
4.5本章小結25
第5章pandas——處理結構化數據26
5.1基本數據結構26
5.1.1 Series 26
5.1.2 DataFrame 28
5.2基於pandas的Index對象的訪問操作32
5.2.1 pandas的Index對象33
5.2.2索引的不同訪問方式35
5.3數學統計和計算工具38
5.3.1統計函數:協方差、相關係數、排序38
5.3.2窗口函數40
5.4數學聚合和分組運算45
5.4.1 agg函數的聚合操作47
5.4.2 transform函數的轉換操作48
5.4.3 apply函數的一般操作49
5.5本章小結49
第6章數據分析與知識發現——一些常用的方法50
6.1分類分析50
6.1.1邏輯回歸51
6.1.2線性判別分析51
6.1.3支持向量機51
6.1.4決策樹52
6.1.5 k近鄰53
6.1.6樸素貝葉斯54
6.2關聯分析54
6.2.1基本概念54
6.2.2經典算法55
6.3聚類分析60
6.3.1 k均值算法60
6.3.2 DBSCAN 61
6.4回歸分析62
6.4. 1線性回歸分析63
6.4.2支持向量回歸63
6.4.3 k近鄰回歸63
6.5本章小結64
第7章scikit-learn——實現數據的分析65
7.1分類方法65
7. 1.1邏輯回歸65
7.1.2支持向量機66
7.1.3最近鄰67
7.1.4決策樹68
7.1.5隨機梯度下降68
7.1.6高斯過程分類69
7.1.7多層感知器69
7.1.8樸素貝葉斯70
7.2回歸方法71
7.2.1最小二乘法71
7.2.2嶺回歸71
7.2.3 Lasso回歸72
7.2.4貝葉斯嶺回歸72
7.2.5決策樹回歸73
7.2.6高斯過程回歸73
7.2.7最近鄰回歸74
7.3聚類方法75
7.3.1 k均值75
7.3 .2相似性傳播76
7.3.3均值漂移76
7.3.4譜聚類77
7.3.5層次聚類77
7.3.6 DBSCAN 78
7.3.7 BIRCH 79
7.4本章小結80
第8章Matplotlib——交互式圖表繪製81
8.1基本佈局對象81
8.2圖表樣式的修改以及圖表裝飾項接口84
8.3基礎圖表繪製88
8.3.1直方圖88
8. 3.2散點圖89
8.3.3餅圖91
8.3.4柱狀圖92
8.3.5折線圖95
8.3.6表格96
8.3.7不同坐標系下的圖像97
8.4 matplot3D 98
8. 5 Matplotlib與Jupyter結合99
8.6本章小結101
第9章實戰:影評數據分析與電影推薦102
9.1明確目標與數據準備102
9.1.1明確目標102
9.1.2數據採集與處理102
9.1.3工具選擇103
9.2初步分析104
9.2.1用戶角度分析104
9.2.2電影角度分析107
9.3電影推薦110
9.4本章小結111
第10章實戰:汽車貸款違約的數據分析112
10.1數據分析常用的Python庫112
10.2數據樣本分析113
10.2.1初步分析樣本的所有變量113
10.2.2變量類型分析114
10.2.3 Python代碼實踐115
10.3數據分析的預處理116
10.3.1目標變量探索116
10.3.2 X變量初步探索117
10.3.3連續變量的缺失值處理118
10.3.4分類變量的缺失值處理120
10.4數據分析的模型建立與模型評估122
10.4.1數據預處理與訓練集劃分122
10.4.2採用回歸模型進行數據分析123
10 .4.3採用決策樹模型進行數據分析125
10.4.4採用隨機森林模型優化決策樹模型127
10.5本章小結128
第11章實戰:Python表格數據分析129
11.1背景介紹129
11. 2前期準備與基本操作130
11.2.1基本術語概念說明130
11.2.2安裝openpyxl並創建一個工作簿130
11.2.3從Excel工作簿中讀取數據131
11.2.4迭代訪問數據133
11.2.5修改與插入數據135
11.3進階內容137
11.3.1為Excel工作簿添加公式137
11.3.2為Excel工作簿添加條件格式139
11.3.3為Excel工作簿添加圖表142
11.4數據分析實例145
11.4.1背景與前期準備145
11.4.2使用openpyxl讀取數據並將其轉化為Dataframe對象145
11.4.3繪製數值列直方圖146
11.4.4繪製相關性矩陣147
11.4.5繪製散佈矩陣149
11.4.6將可視化結果插入Excel工作簿中150
11.5本章小結151
第12章實戰:利用手機的購物評論分析手機特徵152
12.1項目介紹152
12 .2從Kaggle上下載數據152
12.3篩選想要的數據156
12.4分析數據159
12.4.1算法介紹159
12.4.2算法應用160
12.5本章小結171
第13章實戰:基於k近鄰模型預測葡萄酒種類的數據分析與可視化172
13.1機器學習的模型和數據172
13.2 k近鄰模型的介紹與初步建立173
13.2.1 k近鄰模型的初步建立173
13.2 .2使用專業庫建立k近鄰模型178
13.2.3使用scikit-learn 182
13.3數據可視化183
13.4本章小結185
第14章實戰:美國波士頓房價預測186
14.1數據清洗187
14. 2數據分析195
14.3分析結果199
14.4本章小結199
作者介紹
比利時布魯塞爾大學應用科學學院應用信息技術專業碩士、經濟學院工商管理專業碩士。
具有多年的軟件開發、項目管理、計算機教學經驗。
對IT行業具有較全面的認識。
2003至今任北航軟件學院副教授。
研究領域包括:軟件工程IT項目管理。