數據挖掘與商務分析:R語言
內容描述
<內容介紹>
從海量的數據中收集、分析、提取有價值的信息需要功能強大的分析工具,本書結合R軟件詳細介紹了數據挖掘和數據分析的實用方法,主要內容包括處理信息和獲取數據、標準線性回歸、局部多項式回歸、統計建模中簡約的重要性、Logistic回歸、貝葉斯分析、多項式Logistic回歸、決策樹、聚類、購物籃分析、降維和網絡數據等。書後配有練習並且書中所有例子涉及的數據集和R代碼可以從本書配套網站獲取。
<章節目錄>
譯者序
前言
致謝
第1章引言
參考文獻
第2章處理信息與認識數據
21例1:2006年出生數據
22例2:校友捐贈
23例3:橘子汁
參考文獻
第3章標準線性回歸
31用R函數估算線性回歸模型
32例1:汽車燃油效率
33例2:豐田二手車價格
附錄3A模型過度擬合對回歸預測均方誤差的影響
參考文獻
第4章局部多項式回歸的非參數回歸方法
41模型的選擇
42密度估計和直方圖平滑化的應用
43多重回歸模型的拓展
44例題和軟件
441例1:老忠實噴泉
442例2:NOx排放物
參考文獻
第5章簡約在統計建模中的重要性
51怎樣防止低假陽率
參考文獻
第6章多參數回歸模型中基於懲罰算法的變量選擇
61例1:前列腺癌
62例2:橙汁
參考文獻
第7章Logistic回歸
71對二分類響應數據建立線性模型
72Logistic回歸模型中回歸係數的解釋
7 3統計推斷
74對新樣例的分類
75用R語言估計
76例1:死刑數據
761二分類Logistic回歸:Minitab程序輸出
762R語言輸出結果的解釋與分析
77例2:延誤的航班
78例3:貸款驗收
79例4:德國信貸數據
參考文獻
第8章二元分類、概率和分類性能的評價
81二元分類
8 2使用概率作決策
83靈敏度和特異度
84例子:德國信貸數據
第9章最近鄰分析分類
91k近鄰算法
92例1:玻璃碎片的法醫分析
93例2:德國信貸數據
參考文獻
第10章樸素貝葉斯分析:一種由以分類為主的變量對分類響應變量預測的模型
101例:航班延誤
參考文獻
第11章多項式Logistic回歸
111計算軟件
112例1:玻璃碎片的法醫分析
113例2:重溫玻璃碎片的法醫分析
附錄11A簡單三重矩陣的詳述
參考文獻
第12章分類和判別分析的深入探討
121Fisher線性判別函數
122例1:德國信用卡數據
123例2:Fisher鳶尾花數據
124例3:玻璃碎片的法醫分析數據
125例4:MBA申請數據
參考文獻
第13章決策樹
13 1例1:前列腺癌
132例2:摩托車加速度
133例3:回顧Fisher鳶尾花數據集
第14章回歸、分類樹、計算軟件及其他實用分類方法的深入探討
141有關樹結構的R程序包
142卡方自動交互檢驗
143集成方法:Bagging算法、Boosting算法和隨機森林
144支持向量機
145神經網絡
146R程序包:關於數據挖掘的一個有用的圖形用戶界面
參考文獻
第15章聚類
151k均值聚類
152另眼看聚類:將期望最大化算法應用於混合正態分佈
1521E步
1522M步
15 3層次聚類過程
參考文獻
第16章購物籃分析:關聯規則和提升度
161例1:在線廣播
162例2:收入預測
參考文獻
第17章降維:因子模型和主成分分析
171例1:歐洲蛋白質的攝入數據
172例2:月度失業率數據
第18章帶多重共線性輸入的降維回歸:主成分回歸和偏最小二乘法
181三個例子
18 11例1:模擬數據
1812例2:基於50個州的歷史失業率預測某州下個月的失業率
1813例3:預測下月失業率:比較不同方法樣本外預測效果
參考文獻
第19章文本數據:文本挖掘和情感分析
191逆多項式Logistic回歸
192例1:餐館評論
193例2:政治主張
附錄19.A Gentzkow/Shapiro關於“ slant”的估計和偏最小二乘的關係
參考文獻
第20章網絡數據
201例1:15世紀佛羅倫薩的婚姻與權力
202例2:友誼網絡的連接
參考文獻
附錄A練習
附錄B參考文獻