Python 數據科學導論:概念、技術與應用
內容描述
《Python數據科學導論》通過理論與實踐相結合的方式來闡述數據科學的一系列重要概念及算法,以使讀者學會如何管理並利用數據。本書共有11章,第1章概要地介紹了數據科學的現狀並給出了一些使用本書的建議;第2章介紹了Python語言數據科學生態系統,涉及NumPy、SciPy和Pandas等熱門第三方庫;第3~7章著重講解了統計學和機器學習的知識,涉及描述統計學、統計推斷、監督學習、回歸分析、無監督學習等主題;第8~10章詳細介紹了數據科學的一些主要應用,如網絡分析、推薦系統和情感分析;第11章介紹了並行計算及性能優化方法。
目錄大綱
譯者序
原書前言
作者和貢獻者簡介
第1章數據科學概述// 1
1.1什麼是數據科學//1
1.2關於本書//2
第2章數據專家的工具箱//4
2.1引言// 4
2.2為什麼選擇Python // 4
2.3數據專家的基本Python庫// 5
2.3.1數值和科學計算:NumPy和SciPy // 5
2.3.2 Scikit-learn:Python中的機器學習庫// 5
2.3. 3 Pandas:Python數據分析庫// 5
2.4數據科學生態系統的安裝// 6
2.5集成開發環境// 6
2.5.1網絡集成開發環境:Jupyter // 7
2.6數據專家從Python開始// 7
2.6. 1讀取// 11
2.6.2選擇數據// 13
2.6.3篩選數據// 14
2.6.4篩選缺失的數據// 15
2.6.5處理數據// 15
2.6.6排序// 19
2.6.7分組數據// 20
2.6.8重排數據// 21
2.6.9對數據進行排名// 22
2.6.10繪圖// 23
2.7小結// 24
第3章描述統計學// 25
3.1引言// 25
3.2數據準備// 25
3.2.1 Adult數據集示例// 26
3.3探索性數據分析// 28
3.3.1匯總數據// 28
3.3.2數據分佈// 31
3.3.3離群點的處理// 33
3.3.4測量不對稱性:偏度和皮爾遜中值偏度係數// 36
3.3. 5連續分佈// 38
3.3.6核密度// 39
3.4估計// 41
3.4.1樣本和估計均值、方差和標準記分// 41
3.4.2協方差、皮爾遜相關和斯皮爾曼秩相關/ / 42
3.5小結// 44
參考文獻// 45
第4章統計推斷// 46
4.1引言// 46
4.2統計推斷:頻率論方法// 46
4.3測量估計的差異性// 47
4.3.1點估計/ / 47
4.3.2置信區間// 50
4.4假設檢驗// 53
4.4.1用置信區間檢驗假設// 53
4.4.2使用p值檢驗假設// 55
4.5效應E是真實的嗎// 57
4.6小結// 57
參考文獻// 58
第5章監督學習// 59
5.1引言// 59
5.2問題// 60
5.3第一步// 60
5.4什麼是學習?// 69
5.5學習曲線// 70
5.6訓練、驗證和測試// 73
5.7兩種學習模型// 76
5.7.1學習三要素// 76
5.7.2支持向量機// 77
5.7.3隨機森林/ / 79
5.8結束學習過程// 80
5.9商業案例// 81
5.10小結// 83
參考文獻// 83
第6章回歸分析// 84
6.1引言// 84
6.2線性回歸// 84
6.2.1簡單線性回歸// 85
6.2.2多元線性回歸和多項式回歸// 90
6.2.3稀疏模型// 90
6.3邏輯斯蒂回歸// 97
6.4小結// 99
參考文獻// 99
第7章無監督學習// 100
7.1引言// 100
7.2聚類// 100
7.2.1相似度和距離// 101
7.2.2什麼是一個好的聚類?定義衡量聚類質量的度量// 101
7.2.3聚類技術的分類標準// 104
7.3案例學習// 113
7.4小結// 118
參考文獻// 119
第8章網絡分析// 120
8.1引言// 120
8.2圖的基本定義// 121
8.3社交網絡分析// 122
8.3.1 NetworkX基礎// 122
8.3.2實際案例:Facebook數據集// 123
8.4中心性// 125
8.4.1在圖中繪製中心性// 130
8.4.2 PageRank // 132
8.5自我網絡// 134
8.6社區發現// 138
8.7小結// 139
參考文獻// 139
第9章推薦系統// 140
9.1引言// 140
9.2推薦系統如何工作?// 140
9.2.1基於內容的過濾// 141
9.2.2協作過濾// 141
9.2.3混合推薦系統// 141
9.3建模用戶偏好// 142
9.4評估推薦系統// 142
9.5實際案例// 143
9.5.1 MovieLens數據集// 143
9.5.2基於用戶的協作過濾// 145
9.6小結// 153
參考文獻// 153
第10章用於情感分析的統計自然語言處理// 154
10.1引言// 154
10.2數據清洗// 155
10.3文本表示// 158
10.3.1二元組和n元組// 163
10.4實際案例// 163
10.5小結// 168
參考文獻// 168
第11章並行計算// 169
11.1引言// 169
11.2架構// 170
11.2.1入門指南// 171
11.2.2連接到集群(引擎)// 171
11.3多核編程// 172
11.3.1引擎的直接視圖// 172
11.3.2引擎的負載均衡視圖// 175
11.4分佈式計算// 176
11.5實際應用:紐約出租車旅行// 177
11.5.1直接視圖非阻塞方案// 178
11.5.2實驗結果// 180
11.6小結// 182
參考文獻// 182
作者介紹
Laura Igual博士是巴塞羅那大學數學和計算機科學系的副教授。她於2000年獲得西班牙瓦倫西亞大學的數學學位,並於2006年獲得西班牙龐培法布拉大學的博士學位。她的研究領域包括計算機視覺、醫學成像、機器學習和數據科學。
Santi Seguí博士是巴塞羅那大學數學和計算機科學系的助理教授。自2007年起,他擔任了西班牙巴塞羅那自治大學的計算機科學工程師。他於2011年獲得西班牙巴塞羅那大學的博士學位。他的研究領域包括計算機視覺、應用機器學習和數據科學。