大數據統計理論 (舊版: 專家親授:極深度大數據專用統計理論)
內容描述
<內容簡介>
阿里巴巴集團內部使用,效果顯著
大數據的統計計算是進行資料探索和分析採擷的基礎。在實際應用中會遇到兩個問題:一個是需要使用多少資源;另一個是計算時間,它關係到資料探索分析的效率和效果。人們都希望花更少的錢,並且希望計算時間更短,但對於某個確定的計算過程,它們是成反比的。
本書作者從統計計算的演算法入手,重構其計算過程,從而同時降低資源使用量和計算時間。作者提出一套完整的關於大數據統計的計算理論,包括常用的各種統計量和統計方法,開發的資料分析工具已經在阿里巴巴集團內部的多個部門使用,並取得顯著效果。
專家推薦
本書提出了一套適合於分散式運算的統計計算方法,透過對一些基礎統計量的計算,可獲得有關資料集更全面的統計資訊,進而可以進行進階的統計分析,例如,區間估計、線性回歸、主成分分析等。可以說,本書從統計計算的角度,整理出一套對大數據分析有實用價值的統計理論,並形成參考程式。
潘愛民 阿里雲首席架構師
相信大多數從事數值計算的技術人員都讀過一系列叫作Numerical Recipe in C/Fortran/Java 的書。眼前這本書或許可以叫作Numerical Statistics Recipes in Java,和那個系列一樣,對重新快速學習和使用數值統計演算法來實現資料分析應用的讀者來說,這本書是一本不錯的入門手冊。
何萬青 博士 英特爾技術計算集團技術計算架構師
適用:對大數據分析有興趣者、大數據分析的工程師或分析師,讀者可根據自己需要,選擇相應的內容進行參考。
<章節目錄>
前言
第1 章 基本概念
1.1 資料類型
1.2 整體和樣本
1.3 參數和統計量
1.4 分散式運算
第2 章 單變數基本統計量
2.1 數量統計量
2.2 頻率統計量
2.3 次序統計量
第3 章 單變數資料的分佈
3.1 長條圖
3.2 經驗分佈
3.3 近似分位數和近似百分位數
3.4 PP、QQ 機率圖
3.5 單變數的基本統計資訊
第4 章 多變數的資料特徵
4.1 協方差
4.2 相關係數
4.3 協方差和相關係數的計算實現
4.4 資料表的基本統計結果
第5 章 資料探索
5.1 擴充長條圖
5.2 交叉表
第6 章 極限定理
6.1 大數定理
6.2 中心極限定理
第7 章 常用的分佈函數介紹
7.1 基本定義
7.2 標準正態分佈(Z 分佈或U 分佈)
7.3 卡方分佈(Χ2 分佈)
7.4 學生T 分佈
7.5 F 分佈
第8 章 常用分佈函數計算
8.1 函式定義
8.2 函數性質及相互間的關係
8.3 分佈函數關係圖
8.4 分佈函數的計算
8.5 產生常用分佈的亂數
第9 章 參數估計
9.1 點估計與區間估計
9.2 單一整體的參數估計
9.3 兩個整體的參數估計
第10 章 假設檢驗
10.1 基本概念
10.2 參數檢驗
10.3 單一整體參數的檢驗
10.4 兩個整體參數的檢驗
第11 章 非參數檢驗
11.1 PEARSON 擬合優度Χ2 檢驗
11.2 兩個變數的列聯表檢驗
11.3 K-S 檢驗
11.4 符號檢驗
11.5 秩統計量和秩檢驗方法
第12 章 方差分析
12.1 單因素方差分析
12.2 雙因素方差分析
第13 章 多元線性回歸
13.1 數學模型
13.2 顯著性檢驗
13.3 計算步驟
13.4 程式實現
13.5 多重共線性
13.6 逐步回歸
第14 章 主成分分析
14.1 計算步驟
14.2 程式實現
14.3 應用舉例
第15 章 判別分析
15.1 距離判別
15.2 FISHER 判別
15.3 BAYES 判別
15.4 判別演算法的綜合模型
15.5 應用舉例
第16 章 模型評估曲線
16.1 相關概念
16.2 定義
16.3 計算實現
參考文獻