R語言數據分析從入門到實戰
內容描述
R語言是一個自由、免費、源代碼開放的編程語言和開發環境,它提供了強大的數據分析功能和豐富的數據可視化手段。隨著數據科學的快速發展,R語言已經成為數據分析領域炙手可熱的通用語言。 本書共14章,內容主要包括R語言簡介、讀寫數據、從流程控制到自定義函數、繪圖功能、基本統計、決策樹、K均值聚類算法、遺傳算法、關聯性規則、文本挖掘、推薦系統、可視化數據分析、探索性數據分析及案例分析等。 本書內容通俗易懂,案例豐富,實用性強,特別適合R語言的入門讀者和進階讀者閱讀,也適合數據分析人員、數據挖掘人員等其他數據科學從業者閱讀參考。
目錄大綱
目錄
第1章 R簡介 1
1.1 R軟件介紹 1
1.2 R對象介紹 4
1.2.1 向量 4
1.2.2 數組 5
1.2.3 矩陣 8
1.2.4 數據框 11
1.2.5 因子 12
1.2.6 列表 12
1.2.7 對象轉換 14
1.3 習題 15
第2章 讀寫數據 16
2.1 讀取數據 16
2.2 寫入數據 20
2.3 讀寫RData數據 21
2.4 讀取SQL Server數據庫數據 22
2.5 讀寫Excel數據 23
2.6 習題 23
第3章 從流程控制到函數 24
3.1 條件執行 24
3.2 循環控制 26
3.3 函數 29
3.4 習題 30
第4章 繪圖功能及基本統計 31
4.1 高級繪圖 31
4.2 低級繪圖 34
4.3 交互式繪圖 35
4.4 圖形參數 37
4.5 基本統計 39
4.6 習題 44
第5章 數據分析和常用的包介紹 45
5.1 機器學習介紹 45
5.2 數據挖掘介紹 46
5.3 文本挖掘介紹 46
5.4 常用的包介紹 46
第6章 監督式學習 54
6.1 決策樹 54
6.2 支持向量機 66
6.3 人工神經網絡 70
6.4 集成學習方法 75
6.4.1 隨機森林 76
6.4.2 提升法 76
6.5 習題 77
第7章 非監督式學習 78
7.1 層次聚類法 78
7.2 K均值聚類算法 81
7.3 模糊C均值聚類算法 83
7.4 聚類指標 90
7.5 習題 92
第8章 演化式學習 93
8.1 遺傳算法 93
8.2 人工蜂群算法 99
第9章 混合式學習 102
9.1 人工蜂群算法混合決策樹 102
9.2 遺傳算法混合人工神經網絡 105
第10章 關聯性規則 119
10.1 產生關聯性規則並排序 121
10.2 刪除冗餘規則 126
10.3 習題 132
第11章 文本挖掘 133
11.1 使用混合分詞並創建詞頻表 133
11.2 使用tag分詞並創建詞雲 134
11.3 習題 136
第12章 推薦系統 137
12.1 Jester5k數據集 137
12.2 MovieLense數據集 140
第13章 可視化數據分析 142
13.1 導入數據 143
13.1.1 處理數據集 146
13.1.2 設置變量 147
13.2 探索及測試數據 147
13.3 轉換數據 151
13.4 建立、評估及導出模型 153
13.5 習題 155
第14章 探索性數據分析 156
14.1 dplyr數據處理庫(包) 156
14.2 案例分析 165
附錄A 安裝R 189
附錄B 安裝RStudio Desktop和rattle 192
附錄C R語言指令及用法 197
作者介紹
李仁鐘,福州外語外貿學院教授,發表論文210餘篇,其中SSCI、SCI、EI等收錄70餘篇次,發表的論文多次獲得IEEE等最佳論文獎及優秀論文獎。