R語言與數據分析實戰

R語言與數據分析實戰

作者: [韓]徐珉久
出版社: 人民郵電
出版在: 2017-01-01
ISBN-13: 9787115442468
ISBN-10: 7115442460
裝訂格式: 平裝
總頁數: 460 頁





內容描述


本書以R語言的“編程屬性”為中心,內容涵蓋R語言基礎理論到實際數據分析,通過分析模型和算法等更實用的示例,講解了數據可視化、統計分析、數據挖掘、機器學習等實際業務中常用的實操技巧,以及代碼生成方法。書中還收錄了作者的實戰經驗和學習體會,可以解決數據分析過程中出現的各種問題。對R語言有一定瞭解但在實際運用中感到困惑的讀者,可以在書中找到多種解題方法,並能夠迅速應用於一線業務。


目錄大綱


推薦語
前言
本書結構

第1章搭建R編程環境1 
1.1為什麼是R 2 
1.2安裝R 2 
1.2.1在Windows操作系統中安裝R 4 
1.2.2在Linux系統下安裝R 6 
1.2.3在MacOSX中安裝R 12 
1.3啟動R 15 
1.4查看幫助16 
1.5 R集成開發環境19 
1.6批處理21 
1.7使用包22 
參考資料24 

第2章數據類型25 
2.1變量26 
2.1.1變量命名規則26 
2.1.2變量賦值26 
2.2調用函數時指定參數27 
2.3標量28 
2.3.1數值28 
2.3.2 NA 29 
2.3.3 NULL 29 
2.3.4字符串30 
2.3.5邏輯值31 
2.3.6因子32 
2.4向量34 
2.4.1創建向量35 
2.4.2訪問向量中的數據36 
2.4.3向量運算39 
2.4.4連續數字組成的向量41 
2.4.5保存重複值的向量42 
2.5列表43 
2.5.1創建列表43 
2.5.2訪問列表中的數據44 
2.6矩陣45 
2.6.1創建矩陣45 
2.6.2訪問矩陣中的數據48 
2.6.3矩陣運算49 
2.7數組52 
2.7.1創建數組53 
2.7.2訪問數組數據54 
2.8數據框54 
2.8.1創建數據框55 
2.8.2訪問數據框57 
2.8.3實用工具函數59 
2.9類型判別6 1 
2.10類型轉換62 
參考資料64 

第3章R語言編程65 
3.1 R的特徵66 
3.2流程控制(條件語句與循環語句)66 
3.2.1 if語句66 
3.2.2循環語句67 
3.3運算69 
3.3.1數值運算70 
3.3.2向量運算70 
3.3.3 NA處理72 
3.4定義函數74 
3.4.1基本定義74 
3.4.2可變長參數75 
3.4.3嵌套函數76 
3.5作用域77 
3.6值傳遞80 
3.7對象的不變性81 
3.8模塊模式83 
3.8.1隊列84 
3.8.2編寫隊列模塊85 
參考資料86 

第4章數據操作Ⅰ:基於向量的處理與外部數據處理87 
4.1鳶尾花數據集88 
4.2讀寫文件90 
4.2 .1讀寫CSV文件90 
4.2.2讀寫對象文件93 
4.3合併數據框的行與列94 
4.4 apply系列函數96 
4.4.1 apply()97 
4.4.2 lapply()函數99 
4.4.3 sapply() 102 
4.4.4 tapply()104 
4.4.5 mapply()106 
4.5數據分組並調用函數107 
4.5.1 summaryBy()108 
4.5.2 orderBy()110 
4.5.3 sampleBy()112 
4.6數據拆分與合併114 
4.6.1 split()115 
4.6.2 subset()116 
4.6.3數據合併117 
4.7數據 排序119 
4.7.1 sort()119 
4.7.2 order()120 
4.8訪問數據框中的列121 
4.8.1 with()121 
4.8.2 within()122 
4.8.3 attach()與detach()124 
4.9查找符合條件的數據索引126 
4.10分組運算127 
4.11更易處理的數據表現形式128 
4.12與MySQL聯動131 
4.12.1安裝MySQL及RMySQL 131 
4.12.2使用RMySQL訪問MySQL數據庫140 
參考資料141 

第5章數據操作Ⅱ :數據處理及加工143 
5.1數據處理及加工相關包144 
5.2使用SQL處理數據144 
5.3數據分析:拆分、應用、合併146 
5.3.1 adply()函數147 
5.3.2 ddply()函數149 
5.3.3輕鬆進行按組運算150 
5.3.4 mdply()153 
5.4數據結構變形與匯總154 
5.4.1 melt()155 
5.4.2 cast()157 
5.4.3數據匯總158 
5.5數據表:更快、更方便的數據框160 
5.5.1創建數據表160 
5.5.2數據訪問與分組運算162 
5.5.3使用key快速訪問數據164 
5.5.4使用key合併數據表166 
5.5.5利用引用修改數據167 
5.5.6將列表轉換為數據框16 8 
5.6更好的循環語句170 
5.7並行處理172 
5.7.1設置進程數173 
5.7.2 plyr並行化174 
5.7.3 foreach並行化176 
5.8單元測試與調試177 
5.8.1 testthat 177 
5.8.2使用test_that( )進行測試分組179 
5.8.3測試文件的結構180 
5.8.4調試181 
5.9測定代碼執行時間187 
5.9.1測定命令語句執行時間187 
5.9.2代碼性能測試189 
參考資料191 

第6章繪圖193 
6.1散點圖194 
6.2圖形選項195 
6.2.1坐標軸名稱196 
6.2.2圖形標題197 
6.2.3點的類型197 
6.2.4點的大小198 
6.2.5顏色199 
6.2.6坐標軸的取值範圍200 
6.2 .7圖形類型201 
6.2.8線型204 
6.2.9圖形排列204 
6.2.10抖動205 
6.3基本圖形207 
6.3.1點207 
6.3.2折線209 
6.3.3直線211 
6.3.4曲線212 
6.3.5多邊形213 
6.4字符串216 
6.5識別圖形中的數據218 
6.6圖例219 
6.7繪製矩陣中的數據(matplot、matlines、matpoints)220 
6.8應用圖形221 
6.8.1箱線圖222 
6.8.2直方圖225 
6.8.3密度圖227 
6.8.4條形圖229 
6.8.5餅圖230 

  1. 8.6馬賽克圖232 
    6.8.7散點圖矩陣234 
    6.8.8透視圖、等高線圖235 
    參考資料238 

第7章統計分析239 
7.1生成隨機數與分佈函數240 
7.2基本統計量243 
7.2.1樣本均值、樣本方差、樣本標準差243 
7.2.2五數概括244 
7.2.3眾數246 
7.3樣本抽取246 
7.3.1簡單隨機抽樣247 
7.3.2考慮權值的樣本抽取248 
7.3.3分層隨機抽樣249 
7.3.4系統抽樣251 
7.4列聯表252 
7.4.1創建列聯表253 
7.4.2求和與百分比254 
7.4.3獨立性檢驗256 
7.4.4費舍爾精確檢驗261 
7.4.5 McNemar檢驗262 
7.5擬合優度檢驗265 
7.5.1卡方檢驗265 
7.5.2夏皮羅—威爾克檢驗265 
7.5.3柯爾莫諾夫—斯米爾諾夫檢驗266 
7.5.4 Q—Q圖268 
7.6相關分析271 
7.6.1皮爾遜相關係數272 
7.6.2斯皮爾曼相關係數275 
7.6.3肯德爾等級相關係數277 
7.6.4相關係數檢驗277 
7.7估計與檢驗278 
7.7.1單樣本均值279 
7.7.2兩獨立樣本均值282 
7.7.3兩配對樣本均值285 
7.7.4兩樣本方差287 
7.7.5單 樣本比率288 
7.7.6兩樣本比率290 
參考資料291 

第8章線性回歸293 
8.1線性回歸的基本假設294 
8.2簡單線性回歸295 
8.2.1創建模型295 
8.2.2提取線性回歸結果296 
8.2.3預測與置信區間298 
8.2.4模型評估299 
8.2.5方差分析及模型間比較302 
8.2.6模型診斷圖形304 
8.2.7回歸直線的可視化306 
8.3多元回歸307 
8.3.1創建及評估模型307 
8.3.2分類變量308 
8.3.3多元回歸模型的可視化310 
8.3.4使用函數I()312 
8.3.5變量的變換314 
8.3.6交互作用314 
8.4異常值320 
8.5變量選擇321 
8.5.1選擇變量的方法322 
8.5 .2比較所有情形325 
參考資料328 

第9章分類算法Ⅰ:數據探索、預處理、模型評估方法331 
9.1數據探索332 
9.1.1技術統計332 
9.1.2數據可視化337 
9.2預處理340 
9.2.1數據變換340 
9.2.2缺失值處理345 
9.2.3變量選擇348 
9.3模型評估方法358 
9.3.1評估指標358 
9.3.2 ROC曲線361 
9.3.3交叉檢驗365 
參考資料375 

第10章分類算法 :機器學習算法377 
10.1邏輯回歸模型378 
10.2多項邏輯回歸分析381 
10.3決策樹384 
10.3.1決策樹模型385 
10.3.2分類與回歸樹386 
10.3.3條件推斷決策樹389 
10.3.4隨機森林391 
10.4神經網絡396 
10.4.1神經網絡模型396 
10.4.2神經網絡模型學習398 
10.5支持向量機402 
10.5.1支持向量機模型403 
10.5.2支持向量機學習404 
10.6類別不平衡408 
10.6.1向上取樣、向下取樣409 
10.6.2 SMOTE 411 
10.7文檔分類413 
10.7.1語料庫與文檔413 
10.7.2文檔變換414 
10.7.3文檔的矩陣表示415 
10.7.4高頻詞418 
10.7.5詞語之間的相關關係419 
10.7.6文檔分類420 
10.7.7從文件創建語料庫422 
10.7.8元數據424 
10.8 caret包427 
參考資料431 

第11章利用泰坦尼克數據練習機器學習433 
11.1泰坦尼克數據格式434 
11.2讀入數據434 
11.2.1轉換數據類型435 
11.2.2分離測試數據437 
11.2.3準備交叉檢驗438 
11.3數據探索440 
11.4評估指標444 
11.5決策樹模型444 
11.5.1 rpart的交叉檢驗445 
11.5.2準確度評估446 
11.5.3條件推斷決策樹447 
11.6發現其他特徵448 
11.6.1使用ticket識別家庭448 
11.6.2預測生還概率449 
11.6.3添加家庭ID 450 
11.6.4合併家庭成員的生還概率452 
11.6.5使用家庭信息建模ctree()454 
11.6.6性能評估455 
11.7交叉檢驗並行化457 
11.7.1反复執行3次10層交叉檢驗457 
11.7.2使用foreach()與%dopar%進行並行化458 
11.8開發更好的算法459 
參考資料460


作者介紹


2007年至今,在Google Korea擔任軟件工程師。曾開發全球檢索相關產品,近來負責自然語言處理相關業務,研究如何為用戶查詢提供更好的檢索品質。延世大學計算機工程學士、韓國科學技術院(KAIST)計算機工程碩士、廣播通信大學信息統計學學士,積極參與Coursera等組織的MOOC。




相關書籍

Game AI Pro 360: Guide to Tactics and Strategy

作者 Rabin Steve

2017-01-01

FLAG'S 創客‧自造者工作坊 -- 用 AI 影像辨識學機器學習

作者 施威銘研究室

2017-01-01

Neural Networks and Deep Learning: Deep Learning explained to your granny

作者 Pat Nakamoto

2017-01-01