零基礎學R語言數據分析:從機器學習、數據挖掘、文本挖掘到大數據分析
內容描述
本書共分14章,內容主要有R語言簡介、數據讀取與寫入的方法,條件判斷、循環等流程控制以及自定義函數,高級繪圖、低級繪圖、交互式繪圖的說明,決策樹、支持向量機、人工神經網絡的介紹,基本統計、機器學習、數據挖掘、文本挖掘、大數據分析的應用,層次聚類法、K平均聚類算法、模糊C平均聚類算法、聚類指標、基因算法及人工蜂群算法的應用。
本書適合沒有程序設計經驗、想要接觸R語言的人以及對統計、機器學習、數據挖掘、文本挖掘、大數據分析有興趣的人閱讀。
目錄大綱
第1章R簡介1
1.1開始使用R軟件1
1.2 R對象4
1.2.1向量4
1.2.2數組5
1.2.3矩陣7
1.2.4數據框9
1.2.5因子11
1.2.6列表11
1.2. 7對象轉換12
第2章數據的讀取與寫入14
2.1數據的讀取14
2.2數據的寫入與數據集17
2.3 RData格式數據的寫入與讀取18
2.4讀取SQL Server數據庫的數據19
第3章流程控制及自定義函數20
3.1條件執行20
3.2循環控制22
3.3自定義函數25
第4章繪圖功能及基本統計27
4.1高級繪圖27
4.2低級繪圖30
4.3交互式繪圖31
4.4圖形參數32
4.5基本統計34
第5章相關程序包的介紹39
5.1機器學習39
5.2數據挖掘40
5.3社交網絡分析及文本挖掘40
5.4大數據分析41
5.5程序包的介紹41
第6章監督式學習51
6.1決策樹51
6.2支持向量機61
6.3人工神經網絡65
6.4組合方法70
6.4.1隨機森林70
6.4.2推進法71
第7章無監督式學習72
7.1層次聚類法72
7.2 K平均聚類算法75
7.3模糊C平均聚類算法77
7.4聚類指標83
第8章進化式學習86
8.1基因算法86
8.2人工蜂群算法92
第9章混合式學習95
9.1使用C50和ABCoptim程序包範例95
9.2使用基因算法來調整人工神經網絡參數的範例97
第10章關聯規則107
10.1關聯規則簡介107
10.2 Apriori算法108
第11章社交網絡分析和文本挖掘117
11.1社交網絡分析117
11.2文本挖掘122
第12章圖形化數據分析工具125
12.1導入數據126
12.1.1處理數據集130
12.1.2設置變量131
12.2探索和測試數據131
12.3轉換數據135
12.4建立、評估和導出模型137
第13章大數據分析(R+Hadoop) 141
13.1 Hadoop簡介141
13.2 R+Hadoop 142
第14章SparkR大數據分析170
14.1 dplyr數據處理程序包172
14.2 SparkR數據處理175
14.3 SparkR與SQL Server 181
14.4 SparkR與Cassandra 184
14.5 Spark Standalone模式186
14.6 SparkR數據分析189
附錄A下載和安裝R 197
附錄B安裝RStudio Desktop 203
附錄C安裝ODBC 209
附錄D指令及用法214
附錄E在虛擬機上安裝R+Hadoop 218
附錄F在虛擬機上安裝SparkR 247
參考文獻272