SAS+R大數據行業應用案例分析 運用預測模型和機器學習技術

SAS+R大數據行業應用案例分析 運用預測模型和機器學習技術

作者: [印]迪普提·古普塔(Deepti Gupta) 林賜 譯
出版社: 清華大學
出版在: 2019-12-01
ISBN-13: 9787302539261
ISBN-10: 730253926X





內容描述


圖書內容 ● 理解分析和基本的數據概念 ● 使用分析方法解決各行業問題 ● 利用機器學習技術建立預測模型 ● 創建和應用分析策略


目錄大綱


目 錄
 
第1章 各行業中的數據分析及其應用 1
1.1 數據分析是什麼 1
1.1.1 數據採集 2
1.1.2 數據準備 3
1.1.3 數據分析 4
1.1.4 模型建立 4
1.1.5 結果 4
1.1.6 投入使用 4
1.2 分析的類型 5
1.3 了解數據及其類型 6
1.4 什麼是大數據分析 6
1.4.1 大數據分析的挑戰 7
1.4.2 數據分析和大數據工具 8
1.4.3 在各種行業中數據分析的作用 10
1.4.4 誰是分析競爭者 12
1.5 不同行業中的關鍵模型及其應用 12
1.6 小結 13
 
第2章 銀行業案例分析 15
2.1 在銀行部門中分析的應用 16
2.1.1 通過交叉銷售和向上銷售增加利潤 16
2.1.2 最大限度地減少客戶流失 17
2.1.3 增加獲取客戶的能力 17
2.1.4 預測銀行貸款違約 18
2.1.5 預測欺詐活動 18
2.2 案例分析:使用邏輯回歸模型預測銀行貸款違約 20
2.2.1 邏輯回歸方程 21
2.2.2 概率 21
2.2.3 邏輯回歸曲線 22
2.2.4 邏輯回歸假設 22
2.3 在邏輯回歸模型中的各個自變量統計檢驗 24
2.3.1 邏輯回歸 24
2.3.2 在邏輯回歸模型中預測值的驗證 25
2.4 基於R的邏輯回歸模型 29
2.4.1 關於數據 29
2.4.2 執行數據探索 29
2.4.3 完全數據的建模與解釋 34
2.4.4 訓練數據和測試數據的模型構建及其解釋 37
2.4.5 預測值驗證 42
2.5 基於SAS的邏輯回歸模型 45
2.6 小結 68
 
第3章 零售業案例分析 69
3.1 零售業中的供應鏈 69
3.2 零售商店的類型 70
3.3 零售行業中分析的作用 71
3.3.1 客戶參與 71
3.3.2 供應鏈優化 72
3.3.3 價格優化 73
3.3.4 空間優化和分類組合規劃 73
3.4 案例分析:使用SARIMA模型為Glen零售商提供銷售預測 75
3.5 ARIMA建模的三個步驟 79
3.5.1 識別階段 79
3.5.2 估計和診斷檢查階段 80
3.5.3 預測階段 81
3.6 季節性ARIMA模型或SARIMA 81
3.7 評估時間序列模型的預測準確度 83
3.8 基於R的季節性ARIMA模型 84
3.8.1 關於數據 84
3.8.2 對時間序列數據執行數據探索 85
3.9 基於SAS的季節性ARIMA模型 99
3.10 小結 118
 
第4章 電信案例分析 119
4.1 電信網絡的類型 119
4.2 在電信行業中分析的作用 120
4.2.1 預測客戶流失 120
4.2.2 網絡分析與優化 122
4.2.3 欺詐檢測和預防 122
4.2.4 價格優化 123
4.3 案例分析:使用決策樹模型預測客戶流失 124
4.3.1 決策樹的優點和局限性 124
4.3.2 處理決策樹中的缺失值 125
4.3.3 處理決策樹中的過擬合 125
4.3.4 決策樹的工作原理 126
4.3.5 選擇決策樹最佳分割標準的量度 127
4.4 基於R的決策樹模型 132
4.4.1 關於數據 132
4.4.2 執行數據探索 132
4.4.3 將數據集拆分成訓練集和測試集 135
4.4.4 基於訓練數據和測試數據構建和解釋模型 136
4.5 基於SAS的決策樹模型 144
4.5.1 完整數據的模型構建和解釋 150
4.5.2 基於訓練數據和測試數據的模型構建和解釋 156
4.6 小結 163
 
第5章 醫療行業案例分析 165
5.1 醫療行業中分析的應用 167
5.1.1 預測疾病的暴發和預防性管理 168
5.1.2 預測患者的再住院率 168
5.1.3 醫療保健欺詐檢測 169
5.1.4 改善患者的預後,降低成本 170
5.2 案例分析:使用隨機森林模型預測惡性和良性乳腺腫瘤的概率 171
5.2.1 隨機森林算法的工作機制 172
5.2.2 基於R的隨機森林模型 177
5.2.3 基於SAS的隨機森林模型 187
5.3 小結 204
 
第6章 航空公司案例分析 205
6.1 在航空業中分析的應用 207
6.1.1 個性化優惠和乘客體驗 208
6.1.2 更安全的航行 209
6.1.3 航空欺詐檢測 209
6.1.4 預測航班延誤 210
6.2 案例分析:使用多元線性回歸模型預測航班延誤 211
6.2.1 多元線性回歸方程 212
6.2.2 多元線性回歸的假設及檢查是否違反了模型假設 212
6.2.3 在多元線性回歸模型中的變量選擇 213
6.2.4 評估多元線性回歸模型 214
6.3 基於R的多元線性回歸模型 215
6.3.1 關於數據 215
6.3.2 執行數據探索 216
6.3.3 基於訓練數據和測試數據進行模型構建和解釋 222
6.4 基於SAS的多元線性回歸模型 232
6.5 小結 260
 
第7章 快速消費品案例分析 261
7.1 FMCG行業中分析的應用 262
7.1.1 客戶體驗與參與 262
7.1.2 銷售和營銷 263
7.1.3 物流管理 263
7.1.4 降價優化 264
7.2 案例分析:使用RFM模型和k均值聚類進行客戶細分 265
7.2.1 RFM模型概述 265
7.2.2 k均值聚類的概述 268
7.3 基於R的 RFM模型與k均值聚類 270
7.3.1 關於數據 271
7.3.2 執行數據探索 271
7.4 基於SAS的RFM模型與k均值聚類 289
7.5 小結 302


作者介紹


Deepti Gupta於2010年完成了運營研究中Finance & PGPM的MBA學位。她曾在畢馬威和IBM私人有限公司擔任數據科學工作者,目前為數據科學自由職業者。Deepti在預測性建模和機器學習方面具備豐富的經驗,具有使用SAS和R的專業知識。Deepti制定了數據科學課程,提供數據科學培訓,在企業和學術機構舉辦研討會。她撰寫了多篇博客和多本白皮書。Deepti熱衷於指導新數據科學工作者。




相關書籍

Python 3 面向對象編程, 2/e

作者 達斯帝·菲利普斯 (Dusty Phillips)

2019-12-01

PyTorch 深度學習入門與實戰

作者 王宇龍

2019-12-01

Practical Data Mining (Hardcover)

作者 Monte F. Hancock Jr.

2019-12-01