用商業案例學R語言數據挖掘
內容描述
商業智能時代已經全面到來,分析型人才的崗位數量在就業市場中呈現井噴式增長。無論是從事產品研發的工程師,還是從事產品推廣的市場人員、人力資源和財務會計人員,都需要掌握數據分析技術,否則很有可能被人工智能替代。 本書包括 18 章,涉及使用 R 語言做數據分析和數據挖掘的主要分析方法。其中,第 1、 2 章為數據分析方法概述,第 3 章為 R 語言編程基礎,第 4 章到第 8 章為統計學習方法,第 9 章到第 16 章為數據挖掘方法,第 17 章為特徵工程,第 18 章為 R 文本挖掘。每章都根據所涉及的知識點的不同,選取了實用的案例,並為讀者準備了相應的練習題。 本書作為 CDA 數據分析師系列叢書中《如虎添翼!數據處理的 SPSS 和 SAS EG 實現(第 2 版)》和《胸有成竹!數據分析的 SPSS 和 SAS EG 進階(第 2 版)》的姊妹篇,將前兩本書的內容進行整合並做了重大拓展,而且秉承了該系列叢書的特點:內容精練、重點突出、示例豐富、語言通俗。可以作為廣大從業人員自學商業數據分析的讀物,適合大中專院校師生學習和閱讀,同時也可以作為高等院校商科、社會科學及相關培訓機構的教材。
目錄大綱
第1章商業數據分析基礎
1.1商業數據分析的本質
1.2商業數據分析中心的建設
第2章數據分析的武器庫
2.1數據挖掘簡介
2.2 R語言簡介
2.3 R與RStudio的下載和安裝
2.4在RStudio中安裝包
2.5練習題
第3章R語言編程
3.1 R的基本數據類型
3.2 R的基本數據結構
3.3 R的程序控制
3.4 R的函數
3.5 R的日期與時間數據類型
3.6在R中讀寫數據
3.7練習題
第4章R描述性統計分析與繪圖
4.1描述性統計分析
4.2製圖的步驟
4.3 R基礎繪圖包
4.4 ggplot2繪圖
4.5練習題
第5章數據整合和數據清洗
5.1數據整合
5.2 R中的高級數據整合
5.3 R中的抽樣
5.4 R的數據清洗.
5.5數據整合
第6章統計推斷基礎
6.1基本的統計學概念
6.3雙樣本t檢驗
6.4方差分析(分類變量和連續變量關係檢驗)
6.5相關分析(兩連續變量關係檢驗)
6.6卡方檢驗(兩分類變量關係檢驗)
6.7練習題.
第7章客戶價值預測:線性回歸 型與診斷
7.1相關性分析
7.2線性回歸
7.3線性回歸診斷
7.4正則化方法
7.5練習題
第8章Logistic回歸構建初始信用評級
8.1 Logistic回歸的相關關係分析
8.2 Logistic回歸模型及實現
8.3最大熵模型與極大似然法估計
8.4模型評估
8.5練習題
第9章使用決策樹進行信用評級
9.1決策樹建模思路
9.2決策樹算法
9.3在R中實現決策樹
9.4組合算法(Ensemble Learning)
9.5練習題
第10章神經網絡
10.1神經元模型
10.2人工神經網絡模型
10.3單層感知器
10.4 BP神經網絡
10.5 RBF神經網絡
10.6神經網絡設計與R代碼實現
10.7練習題
第11章分類器入門:最近鄰域與貝葉斯網絡.
11.1分類器的概念
11.2 KNN算法
11.3樸素貝葉斯
11.4貝葉斯網絡
11.5練習題
第12章高級分類器:支持向量機
12.1線性可分與線性不可分
12.2線性可分支持向量機
12.3線性支持向量機
12.4非線性支持向量機
12.5 R中的支持向量機
12.6練 題
第13章連續變量的維度歸約
13.1維度歸約方法概述
13.2主成分分析
13.3因子分析
13.4奇異值分解
13.5對應分析和多維尺度分析
13.6練習題
第14章聚類
14.1聚類分析概述
14.2聚類算法邏輯.
14.3層次聚類.
14.4 k-means聚類
14.5基於密度的聚類.
14.6聚類模型的評估
14.7高斯混合模型(Gaussian Mixture Model)
14.8客戶分群
14.9練習題
第15章關聯規則與推薦算法
15.1長尾理論
15.2關聯規則
15.3序貫模型
15.4推薦算法與推薦系統.
15.5練習題.
第16章時間序列建模
16.1認識時間序列
16.2簡單時間序列分析.
16.3平穩時間序列分析ARMA模型
16.4非平穩時間序列分析ARIMA模型
第17章特徵工程( Feature Engineering)(博文視點官方網站下載)
17.1特徵工程概述.
17.2數據預處理(Data Preprocessing)
17.3特徵構造(Feature Construction)
17.4特徵抽取(Feature Extraction)
17.5特徵選擇(Feature Selection)
18章R文本挖掘(博文視點官方網站下載)
18.1文本挖掘
18.2文本清洗
18.3中文分詞與文檔模型.
18.4文本的特徵選擇及相關性度量
18.5文本分類
18.6主題模型
18.7綜合案例.
附錄A數據說明(博文視點官方網站下載)
作者介紹
經管之家( www.jg.com.cn):原人大經濟論壇,於2003年成立,致力於推動經管學科的進步,傳播優秀教育資源,目前已經發展成為國內優秀的經濟、管理、金融、統計類的在線教育和諮詢網站,也是國內活躍和具影響力的經管類網絡社區。經管之家從2006年起在國內開展數據分析培訓,累計培訓學員數万人。在大數據的趨勢背景下,創新“CDA數據分析師”品牌,致力於為社會各界數據分析愛好者提供優質、科學、系統的數據分析教育。截至2016年3月已成功舉辦40多期系統培訓,培訓學員達3千餘名;CDA認證考試已成功舉辦三屆,報考人數上千人;中國數據分析師俱樂部(CDA CLUB),每週線下免費沙龍活動,已舉力40多期,累積會員2千餘名;中國數據分析師行業峰會(CDA Summit),一年兩屆,參會人數皆達2千餘名,在大數據領域影響力超前。“CDA數據分析師”隊伍在業界不斷壯大,對數據分析人才產業起到了巨大的推動作用。常國珍,北京大學光華管理學院會計學在讀博士生,北京大學人口研究所社會學碩士,河北聯合大學土木工程專業學士。德勤管理諮詢公司兼職諮詢顧問,SAS專業培訓講師。曾以數據挖掘工程師身份就職於亞信科技(中國)有限公司市場部。具有八年的數據挖掘實戰經驗,主要從事電信和銀行業數據挖掘工作。項目涉及客戶精準營銷、信用評估、欺詐偵測和流失預警等,尤其熟悉銀行個人客戶精準營銷的建模工作。