大數據分析:理論、方法及應用
內容描述
本書由算法領域的知名專家Steven Skiena教授撰寫,重點介紹了收集、分析和解釋數據所需的技能和原理。
作者由淺入深地介紹了數據科學的概念、所需的數學基礎、數據的整理清洗方法、數據分析方法
(統計分析、可視化、數學模型、線性邏輯回歸、機器學習算法等)以及學習大數據分析的意義。
作者結合應用領域的大量數據分析案例,以解釋大數據分析所需技能與原理,
幫助者快速理解和掌握大數據分析的理論與方法,也將這些技能的實際應用方式展現得淋漓盡致,具有很強的可操作性。
目錄大綱
譯者序
前言
第1章 什麼是數據科學1
1.1 計算機科學、數據科學和真正的科學1
1.2 從數據中提出有趣的問題3
1.2.1 棒球百科全書3
1.2.2 互聯網電影數據庫6
1.2.3 Google Ngrams7
1.2.4 紐約出租車記錄9
1.3 數據的屬性11
1.3.1 結構化與非結構化數據11
1.3.2 定量數據與類別數據11
1.3.3 大數據與小數據12
1.4 分類與回歸12
1.5 關於數據科學的電視節目:The Quant Shop13
1.6 關於實戰故事15
1.7 實戰故事:回答正確的問題16
1.8 章節註釋17
1.9 練習17
第2章 數學基礎20
2.1 概率20
2.1.1 概率與統計21
2.1.2 複合事件與獨立事件22
2.1.3 條件概率23
2.1.4 概率分佈23
2.2 描述性統計25
2.2.1 中心性度量25
2.2.2 變異性度量26
2.2.3 解釋方差27
2.2.4 描述分佈29
2.3 相關性分析29
2.3.1 相關係數:皮爾遜和斯皮爾曼秩30
2.3.2 相關的強弱與顯著性31
2.3.3 相關性並不意味著因果關係33
2.3.4 用自相關檢測週期性34
2.4 對數35
2.4.1 對數與乘法概率35
2.4.2 對數和比率35
2.4.3 對數與正規化偏態分佈36
2.5 實戰故事:契合設計師基因37
2.6 章節註釋39
2.7 練習39
第3章 數據整理42
3.1 數據科學語言42
3.1.1 notebook環境的重要性44
3.1.2 標準數據格式45
3.2 數據收集47
3.2.1 搜索47
3.2.2 爬取49
3.2.3 網絡日誌50
3.3 數據清洗50
3.3.1 錯誤與偽影51
3.3.2 數據兼容性52
3.3.3 處理缺失值56
3.3.4 離群值檢測57
3.4 實戰故事:打敗市場58
3.5 眾包59
3.5.1 一便士的實驗59
3.5.2 什麼時候有群體智慧60
3.5.3 聚合機制61
3.5.4 眾包服務62
3.5.5 遊戲化65
3.6 章節註釋66
3.7 練習66
第4章 得分和排名69
4.1 體重指數70
4.2 開發評分系統72
4.2.1 黃金標準和代理72
4.2.2 排名與得分72
4.2.3 識別良好的評分函數74
4.3 Z得分和歸一化75
4.4 高級排名技術76
4.4.1 Elo排名76
4.4.2 合併排名78
4.4.3 基於有向圖的排名80
4.4.4 PageRank80
4.5 實戰故事:Clyde的複仇81
4.6 阿羅不可能性定理83
4.7 實戰故事:誰更大84
4.8 章節註釋87
4.9 練習87
第5章 統計分析89
5.1 統計分佈90
5.1.1 二項分佈90
5.1.2 正態分佈91
5.1.3 正態分佈的含義93
5.1.4 泊松分佈93
5.1.5 冪律分佈95
5.2 從分佈中採樣97
5.3 統計顯著性99
5.3.1 顯著性的意義100
5.3.2 t檢驗:比較總體均值101
5.3.3 Kolmogorov-Smirnov檢驗102
5.3.4 Bonferroni校正104
5.3.5 錯誤發現率104
5.4 實戰故事:發現青春之泉105
5.5 置換檢驗與p值106
5.5.1 產生隨機排列108
5.5.2 迪馬吉奧的連勝紀錄109
5.6 貝葉斯定理110
5.7 章節註釋111
5.8 練習111
第6章 數據可視化114
6.1 探索性數據分析115
6.1.1 面對新的數據集115
6.1.2 匯總統計量和Anscombe四重線117
6.1.3 可視化工具119
6.2 發展可視化美學119
6.2.1 化數據墨水比率120
6.2.2 小化謊言因子121
6.2.3 限度地減少圖表垃圾122
6.2.4 恰當的縮放和標註123
6.2.5 有效使用顏色和陰影124
6.2.6 重複的力量125
6.3 圖表類型125
6.3.1 表格數據127
6.3.2 點狀圖和折線圖128
6.3.3 散點圖131
6.3.4 條形圖和餅圖133
6.3.5 直方圖135
6.3.6 數據地圖137
6.4 出色的可視化139
6.4.1 Marey的火車時刻表139
6.4.2 斯諾的霍亂地圖140
6.4.3 紐約氣象年141
6.5 讀圖141
6.5.1 模糊分佈141
6.5.2 過度解釋方差142
6.6 交互式可視化143
6.7 實戰故事:TextMap144
6.8 章節註釋146
6.9 練習146
第7章 數學模型149
7.1 建模哲學149
7.1.1 奧卡姆剃刀原理149
7.1.2 權衡偏差與方差150
7.1.3 Nate Silver會怎麼做150
7.2 模型分類152
7.2.1 線性模型與非線性模型152
7.2.2 黑盒與描述性模型152
7.2.3 原理與數據驅動模型153
7.2.4 隨機模型與確定性模型154
7.2.5 平面模型與分層模型155
7.3 基準模型155
7.3.1 分類的基準模型155
7.3.2 價值預測的基準模型156
7.4 評估模型157
7.4.1 評估分類器158
7.4.2 受試者工作特徵曲線161
7.4.3 評估多類系統162
7.4.4 評估價值預測模型164
7.5 評估環境165
7.5.1 數據衛生評估167
7.5.2 放大小型評估集167
7.6 實戰故事:100%準確169
7.7 模擬模型170
7.8 實戰故事:經過計算的賭注170
7.9