數據挖掘 : 商業數據分析技術與實踐 (Data Mining for Business Analytics: Concepts, Techniques, and Applications with JMP Pro)

數據挖掘 : 商業數據分析技術與實踐 (Data Mining for Business Analytics: Concepts, Techniques, and Applications with JMP Pro)

作者: 蓋麗特·徐茉莉 (Galit Shmueli)
出版社: 清華大學
出版在: 2018-06-01
ISBN-13: 9787302497660
ISBN-10: 7302497664
裝訂格式: 平裝
總頁數: 399 頁





內容描述


本書採用SAS公司的統計軟件包JMP Pro進行實踐性應用,使用引人入勝的實際案例來構建關鍵數據挖掘方法(尤其是分類和預測的預測模型)的理論及其實踐理解。本書所討論的主題包括數據可視化、降維、聚類、線性和邏輯回歸、分類和回歸樹、判別分析、樸素貝葉斯、人工神經網絡、增量模型、集成算法以及時間序列預測等。

海報:


目錄大綱


第一部分預備知識
1導論002 
1.1什麼是商業分析?002 
1.2什麼是數據挖掘?004 
1.3數據挖掘及相關用語004 
1.4大數據005 
1.5數據科學006 
1.6為什麼會有這麼多不同的方法?007 
1.7術語和符號007 
1.8本書框架009 
2數據挖掘概述·013 
2.1引言013 
2.2數據挖掘的核心思想014 
2.3數據挖掘步驟016 
2.4初步步驟018 
2.5預測能力和過擬合024 
2.6用JMP Pro建立預測模型029 
2.7用JMP Pro進行數據挖掘036 
2.8自動化數據挖掘解決方案037 
第二部分數據探索與降維
3數據可視化046 
3.1數據可視化的用途046 
3.2數據實例047 
3.3基本圖形:條形圖、折線圖和散點圖049 
3.4多維可視化056 
3.5特殊可視化068 
3.6基於數據挖掘目標的主要可視化方案和操作概要072 
4降維076 
4.1引言076
4.2維度災難077 
4.3實際考慮077 
4.4數據匯總078 
4.5相關分析082 
4.6減少分類變量中的類別數量082 
4.7將分類型變量轉換為連續型變量084 
4.8主成分分析084 
4.9利用回歸模型降維094 
4.10利用分類和回歸樹降維094 
第三部分性能評估
5評估預測效果·098 
5.1引言098 
5.2評價預測性能099 
5.3評判分類效果101 
5.4評判分類性能112 
5.5過採樣115 
第四部分預測與分類方法
6多元線性回歸·122 
6.1引言122 
6.2解釋模型與預測模型123 
6.3估計回歸方程和預測124 
6.4線性回歸中的變量選擇129 
7 k近鄰法142 
7.1 k-NN分類(分類型結果變量)142 
7.2數值型結果變量下的k-NN方法·147 
7.3 k-NN算法的優點和缺點149 
8樸素貝葉斯分類器153 
8.1引言153 
8.2使用完全(精確)貝葉斯分類器155 
8.3樸素貝葉斯方法的優點和缺點163
9分類和回歸樹·168 
9.1引言168 
9.2分類樹169 
9.3生成樹172 
9.4評估分類樹的效果176 
9.5避免過擬合178 

9.6樹中的分類準則181 
9.7多分類的分類樹182 
9.8回歸樹182 
9.9樹的優點和缺點184 
9.10預測方法的提高:組合多棵樹186 
9.11不純度的提取和度量188 
10邏輯回歸193 
10.1引言·193 
10.2邏輯回歸模型·195 
10.3評價分類性能·202 
10.4完整分析案例:預測航班延誤·205 
10.5附錄:邏輯回歸的概括·214 
11神經網絡225 
11.1引言·225 
11.2神經網絡的概念和結構·226 
11.3擬合數據·226 
11.4 JMP Pro用戶輸入·240 
11.5探索預測變量和響應變量的關係·242 
11.6神經網絡的優點和缺陷·243 
12判別分析247 
12.1引言·247 
12.2觀測值到類的距離·249 
12.3從距離到傾向和分類·251
12.4判別分析的分類性能·254 
12.5先驗概率·255 
12.6多類別分類·256 
12.7優點和缺點·258 

13組合方法:集成算法和增量模型263 
13.1集成算法·263 
13.2增量(說服)模型· 268 
13.3總結·274 
第五部分挖掘記錄之間的關係
14聚類分析280 
14.1引言·280 
14.2定義兩個觀測值之間的距離·284 
14.3定義兩個類之間的距離·288 
14.4系統(凝聚)聚類·290 
14.5非系統聚類:k-means算法·299 
第六部分時間序列預測
15時間序列處理·310 
15.1引言·310 
15.2描述性與預測性建模·311 
15.3商業中的主流預測方法·312 
15.4時間序列的構成·312 
15.5數據分割和性能評價·316 
16回歸預測模型·321 
16.1趨勢模型·321 
16.2季節模型·327 
16.3趨勢和季節模型·330 

16.4自相關和ARIMA模型331 
17平滑法·350
17.1引言·350 
17.2移動平均法·351 
17.3簡單指數平滑法·355 
17.4高級指數平滑法·358 
第七部分案例
18案例·372 
18.1查爾斯圖書俱樂部·372 
18.2德國信貸·378 
18.3太古軟件編目·382 
18.4政治說教·385 
18.5出租車訂單取消·388 
18.6浴皂的消費者細分·390 
18.7直郵籌款·393 
18.8破產預測·395 
18.9時間序列案例:預測公共交通需求·398


作者介紹


作者:蓋麗特.徐茉莉
蓋麗特.徐茉莉博士是中國台灣清華大學服務科學研究所的特聘教授。自2004年以來,她在馬里蘭大學、Statistics.com、印度商學院和中國台灣清華大學設計並指導了數據挖掘課程。徐茉莉教授以她在商業分析領域的研究和教學而聞名,她的研究方向是在信息系統和醫療保健方面的統計和數據挖掘方法。她撰寫了70篇期刊文章、書籍、教材和圖書章節,包括Wiley出版的《商業數據挖掘:概念、技術和應用程序XLMiner(第三版)》。
彼得.布魯斯是統計教育研究所的創始人。他撰寫了多篇期刊文章,並且是重採樣統計軟件的開發者。他是《統計分析導論:基於重採樣角度》一書的作者以及《商業數據挖掘:概念、技術和應用程序XLMiner(第三版)》的合著者之一。
米婭·斯蒂芬斯是SAS/JMP的學術顧問。在加入SAS公司之前,她曾是新罕布什爾大學的統計學兼職教授,也是North Haven Group有限責任公司(一家統計培訓和諮詢公司)的創始成員。同時是另外三本書的合著者,包括由Wiley出版的《六西格瑪可視化:更精益化的數據分析(第二版)》。
尼廷·帕特爾博士是位於馬薩諸塞州劍橋市的Cytel有限公司的聯合創始人,美國統計協會會士,同時也是麻省理工學院和哈佛大學的客座教授。他是印度計算機學會會士,並在印度管理學院艾哈邁德巴德分校擔任15年教授工作。他也是Wiley出版的《商業數據挖掘:概念、技術和應用程序XLMiner(第三版)》的合著者之一。




相關書籍

Cognitive Computing Recipes: Artificial Intelligence Solutions Using Microsoft Cognitive Services and TensorFlow

作者 Adnan Masood Adnan Hashmi

2018-06-01

Java數據科學實戰

作者 Michael R. Brzustowicz 姜建錦 趙緒營 張岩譯

2018-06-01

Beginning Data Science, Iot, and AI on Single Board Computers: Core Skills and Real-World Application with the BBC Micro: Bit and Xinabox

作者 Meitiner Philip Seneviratne Pradeeka

2018-06-01