數據即未來:大數據王者之道
內容描述
本書詳細介紹了數據科學項目的三個階段。準備階段進行信息收集;構建階段將計劃付諸行動,利用準備階段獲得的信息以及相關統計和軟件提供的可用工具來構建產品;交付階段進行產品的交付、反饋及修改等。本書在介紹過程中會教你如何預見問題以及如何處理不確定性,一步步引導你完成軟件和科學思維的佳實踐。
目錄大綱
前言
致謝
關於本書
關於原書封面插圖
第一部分準備和收集數據與知識
第1章數據科學的邏輯2
1.1數據科學與本書4
1.2意識的可貴7
1.3研發人員與數據科學家9
1.4需要成為軟件研發者嗎12
1.5需要明白統計學嗎13
1.6優先級:知識、技術、觀點14
1.7最佳實踐17
1.8閱讀本書:我怎麼討論概念23
小結24
第2章通過好的提問設置目標26
2.1聆聽客戶27
2.2提出關於數據的好問題37
2.3用數據回答問題42
2.4設定目標48
2.5計劃要有彈性50
練習51
小結51
第3章周圍的數據:虛擬的荒野52
3.1數據作為研究對象52
3.2數據可能存在的地方,以及如何與之交互62
3.3數據偵察80
3.4案例:microRNA與基因表達89
練習94
小結95
第4章數據整理:從捕捉到馴化96
4.1案例研究:最佳田徑表演97
4.2準備整理數據101
4.3技巧與工具109
4.4常見的陷阱112
練習119
小結119
第5章數據評估:動手檢查120
5.1案例:安然的電子郵件數據121
5.2描述性統計123
5.3檢查數據的假設130
5.4尋找特定的實體134
5.5大概的統計分析140
練習147
小結147
第二部分構建軟件和統計產品
第6章制訂計劃150
6.1學到了什麼152
6.2重新考慮期望和目標158
6.3規劃164
6.4溝通新目標175
練習176
小結177
第7章統計建模:概念與基礎178
7.1如何看待統計179
7.2統計學:與數據科學相關的領域180
7.3數學184
7.4統計模型與推理194
7.5其他的統計方法218
練習227
小結227
第8章軟件:統計學在行動229
8.1電子表格和用戶圖形界面應用230
8.2編程239
8.3選擇統計軟件工具264
8.4把統計轉換成軟件271
練習277
小結278
第9章輔助軟件:更大、更快、更高效279
9.1數據庫280
9.2高性能計算287
9.3雲服務290
9.4大數據技術293
9.5XX即服務297
練習298
小結298
第10章執行計劃:匯總299
10.1執行計劃的訣竅300
10.2修改計劃308
10.3結果:知道什麼時候足夠好310
10.4案例研究:基因活性測定協議315
練習328
小結329
第三部分整理產品結束項目
第11章交付產品332
11.1了解客戶333
11.2交付形式335
11.3內容345
11.4案例:分析電子遊戲351
練習353
小結353
第12章交付後:問題與修改354
12.1產品及其使用問題354
12.2反饋364
12.3產品修改370
練習377
小結378
第13章結束:項目善後379
13.1項目善後380
13.2從項目中學習392
13.3展望未來396
練習398
小結399
練習:案例與答案400