R語言實戰: 機器學習與數據分析
內容描述
<內容介紹>
經典統計理論和機器學習方法為數據挖掘提供了必要的分析技術。本書系統地介紹統計分析和機器學習領域中最為重要和流行的多種技術及其基本原理,在詳解有關算法的基礎上,結合大量R語言實例演示了這些理論在實踐中的使用方法。具體內容被分成三個部分,即R語言編程基礎、基於統計的數據分析方法以及機器學習理論。統計分析與機器學習部分又具體介紹了參數估計、假設檢驗、極大似然估計、非參數檢驗方法(包括列聯分析、符號檢驗、符號秩檢驗等)、方差分析、線性回歸(包括嶺回歸和Lasso方法)、邏輯回歸、支持向量機、聚類分析(包括K均值算法和EM算法)和人工神經網絡等內容。同時,統計理論的介紹也為深化讀者對於後續機器學習部分的理解提供了很大助益。知識結構和閱讀進度的安排上既兼顧了循序漸進的學習規律,亦統籌考慮了夯實基礎的必要性。本書內容與實際應用結合緊密,又力求突出深入淺出、系統翔實之特色,對算法原理的解釋更是細緻入微。經典統計理論和機器學習方法為數據挖掘提供了必要的分析技術。本書系統地介紹統計分析和機器學習領域中最為重要和流行的多種技術及其基本原理,在詳解有關算法的基礎上,結合大量R語言實例演示了這些理論在實踐中的使用方法。具體內容被分成三個部分,即R語言編程基礎、基於統計的數據分析方法以及機器學習理論。統計分析與機器學習部分又具體介紹了參數估計、假設檢驗、極大似然估計、非參數檢驗方法(包括列聯分析、符號檢驗、符號秩檢驗等)、方差分析、線性回歸(包括嶺回歸和Lasso方法)、邏輯回歸、支持向量機、聚類分析(包括K均值算法和EM算法)和人工神經網絡等內容。同時,統計理論的介紹也為深化讀者對於後續機器學習部分的理解提供了很大助益。知識結構和閱讀進度的安排上既兼顧了循序漸進的學習規律,亦統籌考慮了夯實基礎的必要性。本書內容與實際應用結合緊密,又力求突出深入淺出、系統翔實之特色,對算法原理的解釋更是細緻入微。
<目錄>
第1章初識R語言1 1.1R語言簡介1 1.2安裝與運行3 1.3開始使用R5 1.4包的使用7 1.5使用幫助8 第2章探索R數據10 2.1向量的創建10 2.2向量的運算13 2.3向量的篩選15 2.4矩陣的創建17 2.5矩陣的使用20 2.5.1矩陣的代數運算20 2.5.2修改矩陣的行列22 2.5.3對行列調用函數23 2.6矩陣的篩選25 第3章編寫R程序28 3.1流程的控制28 3.1.1條件選擇結構的概念28 3.1.2條件選擇結構的語法29 3.1.3循環結構的基本概念30 3.1.4循環結構的基本語法31 3.2算術與邏輯33 3.3使用函數34 3.3 .1函數式語言34 3.3.2默認參數值35 3.3.3自定義函數36 3.3.4遞歸的實現38 3.4編寫代碼40 第4章概率統計基礎42 4.1概率論的基本概念42 4.2隨機變量數字特徵45 4.2.1期望45 4.2.2方差46 4.3基本概率分佈模型48 4.3.1離散概率分佈48 4.3.2連續概率分佈52 4.3.3使用內嵌分佈55 4.4大數定理及其意義59 4.5中央極限定理62 4.6隨機採樣分佈65 第5章實用統計圖形71 5.1餅狀圖71 5.2直方圖74 5.3核密圖78 5.4箱線圖81 5.4.1箱線圖與分位數81 5.4.2使用並列箱線圖84 5.5條形圖87 5.5.1基本條形圖及調整87 5.5.2堆砌與分組條形圖88 5.6分位數與QQ圖91 第6章數據輸入/輸出99 6.1數據的加載99 6.1.1基本的數據導入方法99 6.1.2處理其他軟件的格式103 6.1.3讀取來自網頁的數據104 6.1.4從數據庫中讀取數據106 6.2數據的保存108 6.3數據預處理109 6.3. 1常用數學函數110 6.3.2修改數據標籤113 6.3.3缺失值的處理114 第7章高級數據結構118 7.1列表118 7.1.1列表的創建118 7.1.2列表元素的訪問120 7.1.3增刪列表元素121 7.1.4拼接列表123 7.1.5列表轉化為向量123 7.1.6列表上的運算124 7.1.7列表的遞歸125 7.2數據框126 7.2.1數據框的創建126 7.2.2數據框元素的訪問128 7.2.3提取子數據框129 7.2.4數據框行列的添加130 7.2.5數據框的合併132 7.2.6數據框的其他操作134 7.3因子135 7.3.1因子的創建136 7.3.2因子中插入水平137 7.3.3因子和常用函數138 7.4表140 7.4.1表的創建141 7.4.2表中元素的訪問143 7.4.3表中變量的邊際值143 第8章統計推斷146 8.1參數估計146 8.1.1參數估計的基本原理146 8.1.2單總體參數區間估計149 8.1.3雙總體均值差的估計155 8.1.4雙總體比例差的估計161 8.2假設檢驗162 8.2.1基本概念162 8.2 .2兩類錯誤166 8.2.3均值檢驗167 8.3極大似然估計172 8.3.1極大似然法的基本原理172 8.3.2求極大似然估計的方法174 8.3.3極大似然估計應用舉例176 第9章非參數檢驗方法181 9.1列聯分析181 9.1.1類別數據與列聯表181 9.1.2皮爾遜(Pearson)的卡方檢驗182 9.1.3列聯分析應用條件186 9.1 .4費希爾(Fisher)的確切檢驗188 9.2符號檢驗190 9.3威爾科克森(Wilcoxon)符號秩檢驗195 9.4威爾科克森(Wilcoxon)的秩和檢驗199 9.5克魯斯卡爾—沃利斯(Kruskal—Wallis)檢驗204 第10章一元線性回歸208 10.1回歸分析的性質208 10.2回歸的基本概念210 10.2.1總體的回歸函數210 10.2.2隨機乾擾的意義211 10.2.3樣本的回歸函數213 10.3回歸模型的估計214 10.3.1普通最小二乘法原理214 10.3.2一元線性回歸的應用216 10.3.3經典模型的基本假定218 10.3.4總體方差的無偏估計222 10.3.5估計參數的概率分佈225 10.4正態條件下的模型檢驗227 10.4.1擬合優度的檢驗227 10.4.2整體性假定檢驗231 10.4.3單個參數的檢驗233 10.5一元線性回歸模型預測234 10.5.1點預測234 10.5.2區間預測235 第11章線性回歸進階239 11.1多元線性回歸模型239 11.2多元回歸模型估計241 11.2.1最小二乘估計量241 11.2.2多元回歸的實例242 11.2.3總體參數估計量245 11.3多元回歸模型檢驗247 11.3.1線性回歸的顯著性247 11.3.2回歸係數的顯著性249 11.4多元線性回歸模型預測250 11.5其他回歸模型函數形式253 11.5.1雙對數模型以及生產函數253 11.5.2倒數模型與菲利普斯曲線255 11.5.3多項式回歸模型及其分析258 11.6回歸模型的評估與選擇260 11.6.1嵌套模型選擇261 11.6.2赤池信息準則262 11.6.3逐步回歸方法265 11.7現代回歸方法的新進展269 11.7.1多重共線性269 11.7.2嶺回歸270 11.7.3從嶺回歸到Lasso271 第12章方差分析方法275 12.1方差分析的基本概念275 12.2單因素方差分析方法278 12.2.1基本原理278 12.2.2分析步驟279 12.2.3強度測量280 12.3雙因素方差分析方法281 12.3.1無交互作用的分析281 12.3.2有交互作用的分析286 12.4多重比較289 12.4 .1多重t檢驗290 12.4.2Dunnett檢驗291 12.4.3Tukey的HSD檢驗294 12.4.4Newman—Keuls檢驗298 12.5方差齊性的檢驗方法301 12.5.1Bartlett檢驗法301 12.5.2Levene檢驗法303 第13章聚類分析307 13.1聚類的概念307 13.2K均值算法308 13.2.1距離度量309 13.2.2算法描述310 13.2.3應用實例312 13.3最大期望算法314 13.3.1算法原理314 13.3.2收斂探討319 13.4高斯混合模型320 13.4.1模型推導320 13.4.2應用實例323 第14章支持向量機326 14.1從邏輯回歸到線性分類326 14.2線性可分的支持向量機330 14.2.1函數距離與幾何距離330 14.2. 2最大間隔分類器332 14.2.3拉格朗日乘數法334 14.2.4對偶問題的求解339 14.3鬆弛因子與軟間隔模型343 14.4非線性支持向量機方法345 14.4.1從更高維度上分類345 14.4.2非線性核函數方法347 14.4.3默瑟定理與核函數350 14.5對數據進行分類的實踐350 14.5.1基本建模函數351 14.5.2分析建模結果355 第15章人工神經網絡358 15.1從感知機開始358 15.1.1感知機模型358 15.1.2感知機學習360 15.1.3多層感知機362 15.2基本神經網絡365 15.2.1神經網絡結構365 15.2.2符號標記說明366 15.2. 3後向傳播算法368 15.3神經網絡實踐370 15.3.1核心函數介紹370 15.3.2應用分析實踐372 參考文獻375