R數據科學實戰, 2/e (Practical Data Science with R, 2/e)

R數據科學實戰, 2/e (Practical Data Science with R, 2/e)

作者: Nina Zumel John Mount 張駿溫 許向東 張博遠 譯
出版社: 清華大學
出版在: 2022-01-01
ISBN-13: 9787302595441
ISBN-10: 7302595445
裝訂格式: 平裝
總頁數: 588 頁





內容描述


有依據的決策對於成功至關重要。將正確的數據分析技術應用到精心籌備的業務數據中有助於做出準確預測、確定趨勢,以及提前發現問題。R數據分析平臺提供了許多高效率的工具,可用來處理8常的數據分析和機器學習任務。 《R數據科學實戰》(第2版)是一本基於任務的教程,引導讀者使用R語言參與幾十個實用的數據分析實踐。本書重點介紹讀者在工作中將面臨的最重要任務,對於商業分析師和數據科學家來說都非常實用。因為數據只有在可理解的情況下才有用,所以讀者也可以在表格中找到組織和展示數據的妙招,以及快速生動的可視化效果。 主要內容 ●商務級統計分析 ●有效的數據展示 最實用的R工具 ●解釋復 雜的預測模型


目錄大綱


第Ⅰ部分  數據科學引論
第1 章  數據科學處理過程   2
1.1  數據科學項目中的角色   3
1.2  數據科學項目的階段   5
1.2.1  制定目標   6
1.2.2  收集和管理數據   7
1.2.3  建立模型   9
1.2.4  評價和評判模型   10
1.2.5  展現結果和編制文檔   12
1.2.6  部署模型   14
1.3  設定預期   14
1.4  小結   15
第2 章  從R和數據入門   16
2.1  R入門   17
2.1.1  安裝R、工具和示例   18
2.1.2  R編程   18
2.2  處理文件中的數據   28
2.2.1  使用來自文件或URL的結構良好的數據   28
2.2.2  使用R處理非結構化的數據   33
2.3  使用關係數據庫   37
2.4  小結   50
第3 章  探索數據   52
3.1  使用概要統計方法發現問題   54
3.2  使用圖形和可視化方法發現問題   59
3.2.1  採用可視化的方法檢查單變量的分佈   61
3.2.2  採用可視化的方法檢查兩個變量之間的關係   71
3.3  小結   87
第4 章  管理數據   89
4.1  清洗數據   90
4.1.1  特定領域的數據清洗   90
4.1.2  處理缺失值   92
4.1.3  自動處理缺失值變量的vtreat程序包   96
4.2  數據轉換   99
4.2.1  歸一化處理   101
4.2.2  中心化和定標   102
4.2.3  針對偏態分佈和廣泛分佈的對數轉換   107
4.3  用於建模和驗證的抽樣處理   109
4.3.1  用於測試和訓練的分組數據集   110
4.3.2  創建一個樣本分組列   111
4.3.3  記錄分組   112
4.3.4  數據來源   113
4.4  小結   114
第5 章  數據工程與數據整理   115
5.1  數據選取   118
5.1.1  設置行子集和列子集   118
5.1.2  刪除不完整的數據的記錄   124
5.1.3  對行進行排序   128
5.2  基礎數據轉換   133
5.2.1  添加新列   133
5.2.2  其他簡單操作   139
5.3  匯總轉換   140
5.4  多表之間數據的轉換   144
5.4.1  快速地對兩個或多個排序的數據框執行合併   144
5.4.2  合併多個表中數據的主要方法   152
5.5  重新整理和轉換數據   159
5.5.1  將數據從寬表轉換為窄表   159
5.5.2  將數據從窄表轉換為寬表   164
5.5.3  數據坐標   169
5.6  小結   169
第Ⅱ部分  建模方法
第6 章  選擇和評價模型   172
6.1  將業務問題映射為機器學習任務   173
6.1.1  分類問題   173
6.1.2  打分問題   175
6.1.3  分組:目標未知情況下的處理   176
6.1.4  從問題到方法的映射   178
6.2  模型評估   179
6.2.1  過擬合   179
6.2.2  模型性能的度量   183
6.2.3  分類模型的評價   184
6.2.4  評估打分模型   195
6.2.5  概率模型的評估   198
6.3  使用局部可解釋的、與模型無關的解釋技術(LIME)來解釋模型預測   206
6.3.1  LIME:自動的完整性檢查   208
6.3.2  LIME實現過程:一個小樣本   208
6.3.3  LIME用於文本分類   216
6.3.4  對文本分類器進行訓練   219
6.3.5  對分類器的預測進行解釋   221
6.4  小結   227
第7 章  線性和邏輯回歸   228
7.1  使用線性回歸   229
7.1.1  了解線性回歸   229
7.1.2  建立一個線性回歸模型   235
7.1.3  預測   235
7.1.4  發現關係並抽取建議   241
7.1.5  閱讀模型摘要並刻畫係數質量   243
7.1.6  線性回歸要點   250
7.2  使用邏輯回歸   251
7.2.1  理解邏輯回歸   251
7.2.2  構建邏輯回歸模型   256
7.2.3  預測   257
7.2.4  從邏輯回歸模型中發現關係並提取建議   262
7.2.5  解讀模型摘要並刻畫係數   264
7.2.6  邏輯回歸的要點   272
7.3  正則化   272
7.3.1  一個準分離的例子   273
7.3.2  正則化回歸方法的類型   278
7.3.3  使用glmnet程序包實現
正則化回歸   280
7.4  小結   291
第8 章  高級數據準備   292
8.1  vtreat程序包的作用   293
8.2  KDD和KDD Cup 2009   295
8.2.1  使用KDD Cup 2009 數據   296
8.2.2  “莽撞”做法   298
8.3  為分類操作準備基本數據   301
8.3.1  變量的分數框   303
8.3.2  正確使用處理計劃   308
8.4  適用於分類的高級數據準備   309
8.4.1  使用mkCrossFrame-CExperiment()   309
8.4.2  建立模型   312
8.5  為回歸建模準備數據   317
8.6  掌握vtreat程序包   320
8.6.1  vtreat的各個階段   320
8.6.2  缺失值   322
8.6.3  指示變量   323
8.6.4  影響編碼   324
8.6.5  處理計劃   326
8.6.6  交叉框   327
8.7  小結   332
第9 章  無監督方法   333
9.1  聚類分析   334
9.1.1  距離   335
9.1.2  數據準備   338
9.1.3  使用hclust()進行層次聚類   341
9.1.4  k-均值算法   356
9.1.5  給聚類分派新的點   363
9.1.6  聚類的要點   365
9.2  關聯規則   366
9.2.1  關聯規則概述   366
9.2.2  示例問題   368
9.2.3  使用arules程序包挖掘關聯規則   369
9.2.4  關聯規則要點   379
9.3  小結   379
第10 章  高級方法探索   381
10.1  基於決策樹的方法   383
10.1.1  基本決策樹   384
10.1.2  使用bagging方法改進預測   387
10.1.3  使用隨機森林方法進一步改進預測   390
10.1.4  梯度增強樹   397
10.1.5  基於決策樹的模型的要點   407
10.2  使用廣義相加模型學習非單調關係   407
10.2.1  理解GAM   408
10.2.2  一維回歸示例   409
10.2.3  提取非線性關係   414
10.2.4  在真實數據集上使用GAM   416
10.2.5  使用GAM實現邏輯回歸   420
10.2.6  GAM要點   422
10.3  使用支持向量機解決“不可分”的問題   422
10.3.1  使用SVM解決問題   424
10.3.2  理解SVM   429
10.3.3  理解核函數   431
10.3.4  支持向量機和核方法要點   434
10.4  小結   434
第Ⅲ部分  結果交付
第11 章   文檔編制和部署   438
11.1  預測熱點   440
11.2  使用R markdown生成里程碑文檔   441
11.2.1  R markdown是什麼   441
11.2.2  knitr技術詳解   444
11.2.3  使用knitr編寫Buzz數據文檔和生成模型   446
11.3  在運行時文檔編制中使用註釋和版本控制   449
11.3.1  編寫有效的註釋   449
11.3.2  使用版本控制記錄歷史   451
11.3.3  使用版本控制探索項目   457
11.3.4  使用版本控制分享工作   460
11.4  模型部署   464
11.4.1  使用Shiny部署演示   466
11.4.2  將模型部署為HTTP服務   467
11.4.3  以導出模式部署模型   470
11.4.4  本節要點   472
11.5  小結   472
第12 章   有效的結果展現   474
12.1  將結果展現給項目出資方   476
12.1.1  概述項目目標   477
12.1.2  陳述項目結果   479
12.1.3  補充細節   480
12.1.4  提出建議並討論未來工作   482
12.1.5  針對項目出資方的演示文稿中的關鍵點   482
12.2  向最終用戶展現模型   483
12.2.1  概述項目目標   483
12.2.2  展現如何將模型應用於用戶的工作流程   484
12.2.3  展現如何使用模型   486
12.2.4  最終用戶演示文稿中的關鍵點   488
12.3  向其他數據科學家展現你的工作   488
12.3.1  介紹問題   488
12.3.2  討論相關工作   489
12.3.3  討論你的方法   490
12.3.4  討論結果和未來的工作   491
12.3.5  向其他數據科學家展現的要點   493
12.4  小結   493
附錄A  使用R和其他工具   495
A.1  安裝   495
A.1.1  安裝工具   495
A.1.2  R的程序包系統   500
A.1.3  安裝Git   501
A.1.4  安裝RStudio   501
A.1.5  R資源   502
A.2  開始使用R語言   503
A.2.1  R語言的基本特性   505
A.2.2  R語言的主要數據類型   509
A.3  在R語言中使用數據庫   515
A.3.1  使用查詢生成器運行數據庫查詢   515
A.3.2  如何從關係角度思考數據   520
A.4  小結   522
附錄B   重要的統計學概念   523
B.1  分佈   524
B.1.1  正態分佈   524
B.1.2  R語言中對分佈的命名約定的匯總   529
B.1.3  對數正態分佈   530
B.1.4  二項式分佈   534
B.1.5  更多用於數據分佈的R工具   541
B.2  統計理論   541
B.2.1  統計的哲學思想   541
B.2.2  A/B檢驗   544
B.2.3  檢驗的功效   548
B.2.4  專業的統計檢驗   550
B.3  從統計學視角觀察數據的示例   552
B.3.1  採樣偏差   553
B.3.2  遺漏變量偏差   556
B.4  小結   562
附錄C   參考文獻   563


作者介紹


Nina Zumel曾在一家獨立的、非營利性研究機構SRI International 擔任科學家。她曾在一家價格優化公司擔任首席科學家,並創辦了一家合同研究公司。 Nina現在是Win-Vector LLC的首席顧問。讀者可以通過nzumel@win-vector.com聯繫她。

John Mount曾是生物科技領域的計算科學家和股票交易算法的設計師,並且為Shopping.com 管理過一個研究團隊。他現在是Win-Vector LLC 的首席顧問。讀者可以通過jmount@win-vector.com聯繫他。




相關書籍

Mastering Machine Learning on AWS

作者 Mengle Saket S. R. Gurmendez Maximo

2022-01-01

Thinking in Pandas: How to Use the Python Data Analysis Library the Right Way

作者 Stepanek Hannah

2022-01-01

Python 專家實踐指南|搭乘專業開發者的學習便車 (The Hitchhiker's Guide to Python: Best Practices for Development)

作者 Kenneth Reitz Tanya Schlusser 楊尊一 譯

2022-01-01