精通大數據!R 語言資料分析與應用, 2/e
內容描述
運用各種資料分析套件和統計模型, 解決大數據時代所會遇到的各種難題
R 語言是公認處理大數據的最佳利器, 不只免費、語法簡單、直覺, 還具備數千個功能強大的延伸套件, 更讓 R 語言深入各種不同的應用領域。本書由國際知名的資料分析專家執筆, 作者具備豐富的 R 語言教學經驗, 從中篩選出 R 的基本功能和最新、最好用的套件, 並以各種資料集案例, 具體展現資料分析成果。
對於有心跨足資料科學、數據分析、量化交易、人工智慧、機器學習等領域的讀者, 只會 R 語言的語法自然是不夠的。我們將帶您運用各種資料分析套件和統計模型, 解決大數據時代所會遇到的各種難題, 包括:向量運算、文字探勘、資料視覺化、趨勢預測、資料建模, 以及各種分析結果的輸出、引用與動態呈現等, 全面掌握 R 語言的各種技巧。
本書特色 :
● 向量運算:全向量化的資料結構, 包括:vector、factor vector、data.frame、list、matrix、array 等
● 文字探勘:各類資料匯入讀取、抽取字串、表格轉換與合併、資料聚合、資料正規化、網路爬蟲
● 資料視覺化:最吸睛的 ggplot2 套件圖表繪製技巧, 並利用 Shiny 套件產生網頁互動展示儀表板
● 機率統計:快速領略統計學核心應用, 抽樣分佈、假設檢定、變異數分析、資料分群
● 趨勢預測:展現大數據威力的強力工具, 線性迴歸、廣義線性模型、非線性模型、時間序列與自相關性
● 資料建模:機器學習的基礎, 利用 Caret 評斷資料模型配適度, 建立資料測試與訓練機制, 透過交叉驗證和參數挑選建立最佳模式
● 進階應用:資料分析師必學的套件包裝與發佈、報表/投影片製作、制式化文件輸出等
目錄大綱
0
1 R 語言的下載與安裝
02 R 的操作環境簡介
03 R 語言的套件
04 R 語言基礎
05 進階資料結構
06 讀取各類資料
07 統計繪圖
08 建立 R 函數
09 流程控制
10 迴圈 - 迭代元素的傳統作法
11 群組資料操作
12 更有效率的群組操作 - 使用 dplyr
13 使用 purrr 迭代的做法
14 資料整理
15 Tidyverse 下的資料整理
16 字串處理
17 機率分佈
18 基本統計分析
19 線性模型
20 廣義線性模型
21 模型診斷
22 正規化和壓縮方法
23 非線性模型
24 時間序列與自相關性
25 資料分群
26 模型配適 - 使用 Caret 套件
27 用 Knitr 套件將分析結果轉製成報表
28 用 Rmarkdown 製作富文本
29 用 Shinny 套件建立互動資訊看板
30 章 建立 R 套件
附錄 A R 語言參考資源
附錄 B 名詞解釋
作者介紹
本書作者 Jared P. Lander 其專長為資料管理、多階層模型、機器學習、廣義線性模型、視覺化圖表與統計計算,目前是 Lander Analytics 的創始人兼行政總裁,該公司是紐約市的企管顧問公司。作者也是紐約市開源碼大會的主辦人,且是哥倫比亞大學統計系兼任教授。
Jared P. Lander 在哥倫比亞大學取得統計碩士,也曾在許多不同的機構任職過,包括關於政治、科技、籌款、音樂、金融、健保和人道救援的工作,在學術研究和業界皆有豐富經驗。