R 語言數據分析

R 語言數據分析

作者: 哥格利·達羅克茲(Gergely Daroczi)
出版社: 機械工業
出版在: 2016-10-01
ISBN-13: 9787111547952
ISBN-10: 7111547950
裝訂格式: 平裝
總頁數: 279 頁





內容描述


<內容簡介>
本書共分為14章,重點探討了數據預處理的方法,包括數據獲取、篩選、重構、建模、平滑以及降維,本書還介紹了分類和聚類等幾種主要的數據分析方法,zui後探討了網絡數據、時序數據、空間數據及社交媒體數據等一些特殊類型數據的分析處理。

<章節目錄>
譯者序前言第1章你好,數據!1 1.1導入一個大小合適的文本文件2 1.2文本文件編譯測試平臺5 1.3導入文本文件的子集6 1.4從數據庫中導入數據8 1.4.1搭建測試環境9 1.4.2 MySQL和MariaDB 11 1.4.3 PostgreSQL 15 1.4.4 Oracle數據庫17 1.4.5訪問ODBC數據庫22 1.4.6使用圖形化用戶面連接數據庫23 1.4.7其他數據庫後台24 1.5從其他統計系統導入數據25 1.6導入Excel電子表格26 1.7小結26 第2章從Web獲取數據28 2.1從Internet導入數據集29 2.2其他流行的在線數據格式32 2.3從HTML表中讀取數據37 2.4從其他在線來源獲取數據39 2.5使用R包與數據源API交互42 2.5 .1 Socrata的開源數據API 43 2.5.2金融API 44 2.5.3使用Quandl獲取時序數據45 2.5.4 Google文檔和統計數據46 2.5.5在線搜索的發展趨勢47 2.5.6天氣歷史數據48 2.5. 7其他在線數據源49 2.6小結49 第3章數據篩選和匯總50 3.1去掉多餘的數據50 3.1.1快速去掉多餘數據52 3.1.2快速去掉多餘數據的其他方法53 3.2聚集54 3.2.1使用基礎的R命令實現快速聚集55 3.2.2方便的輔助函數56 3.2.3高性能的輔助函數57 3.2.4使用data.table完成聚集59 3.3測試59 3.4匯總函數62 3.5小結64 第4章數據重構65 4.1矩陣轉置65 4.2基於字符串匹配實現數據篩選66 4.3數據重排序67 4.4 dplyr包和data.table包的比較70 4.5創建新變量70 4.5.1內存使用分析71 4.5.2同時創建多個變量72 4.5.3採用dplyr包生成新變量73 4.6數據集合併74 4.7靈活地實現數據整形76 4.7.1將寬表轉換為長表77 4.7.2將長表轉換為寬表78 4.7.3性能調整80 4.8 reshape包的演變80 4.9小結81 第5章建模82 5.1多元模型的由來83 5.2線性回歸及連續預測變量83 5.2.1模型解釋83 5.2.2多元預測85 5.3模型假定87 5.4回歸線的擬合效果90 5.5離散預測變量92 5.6小結95 第6章線性趨勢直線外的知識96 6.1工作流建模96 6.2邏輯回歸97 6.2.1數據思考100 6.2.2模型擬合的好處101 6.2.3模型比較102 6.3計數模型102 6.3.1泊松回歸103 6.3.2負二項回歸107 6.3.3多元非線性模型107 6.4小結115 第7章非結構化數據116 7.1導入語料庫116 7.2清洗語料庫118 7.3展示語料庫的高頻詞121 7.4深度清洗121 7.4.1詞幹提取122 7.4.2詞形還原124 7.5詞條關聯說明124 7.6其他一些度量125 7.7文檔分段126 7.8小結128 第8章數據平滑129 8.1缺失值的類型和來源129 8.2確定缺失值130 8.3忽略缺失值131 8.4去掉缺失值134 8.5在分析前或分析中篩選缺失值136 8.6填補缺失值136 8.6.1缺失值建模138 8.6.2不同填補方法的比較140 8.6.3不處理缺失值141 8.6.4多重填補141 8.7異常值和孤立點141 8.8使用模糊方法144 8.9小結146 第9章從大數據到小數據147 9.1充分性測試148 9.1. 1正態性148 9.1.2多元變量正態性149 9.1.3變量間的依賴關係152 9.1.4 KMO和Barlett檢驗154 9.2主成分分析157 9.2.1 PCA算法158 9.2.2確定成分數159 9.2 .3成分解釋161 9.2.4旋轉方法164 9.2.5使用PCA檢測孤立點167 9.3因子分析170 9.4主成分分析和因子分析172 9.5多維尺度分析173 9.6小結176 第10章分類和聚類177 10.1聚類分析178 10.1.1層次聚類178 10.1.2確定簇的理想個數181 10.1.3 k均值聚類183 10.1.4可視化聚類185 10.2潛類別模型186 10.2.1潛類別分析187 10.2.2 LCR模型189 10.3判別分析189 10.4邏輯回歸192 10.5機器學習算法194 10.5.1 k近鄰算法195 10.5.2分類樹197 10.5.3隨機森林200 10.5.4其他算法201 10.6小結203 第11章基於R的社會網絡分析204 11.1裝載網絡數據204 11.2網絡中心性度量206 11.3網絡數據的展現207 11.3.1交互網絡圖210 11.3.2繪製層次圖211 11.3.3使用R包來解釋包的依賴關係212 11.4更多網絡分析資源212 11.5小結213 第12章時序數據分析214 12.1創建時序對象214 12.2展現時序數據215 12.3季節性分解217 12.4 Holt-Winters篩選218 12.5自回歸積分滑動平均模型220 12.6孤立點檢測221 12.7更複雜的時序對象224 12.8高級時序數據分析225 12.9小結225 第13章我們身邊的數據226 13.1地理編碼226 13.2在空間中展示數據點228 13.3找出數據點的多邊形重疊區域230 13.4繪製主題圖232 13.5圍繞數據點繪製多邊形233 13.5.1等高線234 13.5.2馮洛諾伊圖236 13.6衛星圖237 13.7交互圖238 13.7.1查詢Google地圖238 13.7.2 Java腳本地圖庫240 13.8其他繪圖方法242 13.9空間數據分析244 13.10小結246 第14章分析R社區247 14.1 R創始團隊的成員247 14.2 R開發包的維護人員249 14.3 R-help郵件列表253 14.3.1 R-help郵件列表的規模256 14.3 .2預測未來的郵件規模258 14.4分析用戶列表的重疊部分260 14.5社交媒體內的R用戶數262 14.6社交媒體中與R相關的貼子263 14.7小結266 附錄267




相關書籍

量表編製與SPSS

作者 &#20931;金堂

2016-10-01

飛吧!空拍機100問:從飛行到攝影,這樣開始我的空拍練習

作者 林承志

2016-10-01

計算機視覺實戰:基於TensorFlow 2

作者 Benjamin Planche Eliot Andres 閆龍川 李君婷 高德荃

2016-10-01