Java數據科學實戰

Java數據科學實戰

作者: Michael R. Brzustowicz 姜建錦 趙緒營 張岩譯
出版社: 人民郵電
出版在: 2020-04-01
ISBN-13: 9787115533302
ISBN-10: 711553330X
裝訂格式: 平裝
總頁數: 186 頁





內容描述


《Java數據科學實戰》基於清晰的、面向對象的Java代碼,
討論了數據科學研究的一些基本原理。
考慮到項目所需的可伸縮性、穩健性以及便利性,Java是一門理想的語言。
本書解釋了數據科學過程每個步驟背後的基本數學原理,
以及如何將這些概念應用於Java。
本書內容涉及數據輸入與輸出、線性代數、統計學、數據操作、學習與預測,
以及Hadoop MapReduce在這個過程中所扮演的關鍵角色。
書中還提供了在應用程序中使用的代碼示例。


目錄大綱


前言xi
第1章數據的輸入與輸出1
1.1究竟何謂數據1
1.2數據模型2
1.2.1一維數組2
1.2.2多維數組2
1.2.3數據對象3
1 .2.4矩陣和向量3
1.2.5 JSON 4
1.3處理實際數據4
1.3.1空值4
1.3.2空格5
1.3.3解析錯誤5
1.3.4異常值6
1.4管理數據文件6
1.4.1首先理解文件內容7
1.4.2讀取文本文件8
1.4.3讀取JSON文件10
1.4.4讀取圖像文件11
1.4.5寫入文本文件12
1.5掌握數據庫操作15
1.5.1命令行客戶端15
1.5.2結構化查詢語言16
1.5.3 Java數據庫連接18
1.6通過繪圖將數據可視化20
1.6.1創建簡單圖形21
1.6.2混合類型圖的繪製24
1.6.3把圖存入文件26
第2章線性代數28
2.1構造向量和矩陣29
2.1.1數組存儲30
2.1.2塊存儲31
2.1.3映射存儲31
2.1.4訪問元素31
2.1.5處理子陣33
2.1.6隨機化34
2.2向量與矩陣的運算35
2.2.1縮放35
2.2.2轉置36
2.2.3加與減36
2.2.4長度37
2.2.5距離38
2.2.6相乘39
2.2. 7內積40
2.2.8外積41
2.2.9逐項積42
2.2.10複合運算43
2.2.11仿射變換43
2.2.12映射函數44
2.3矩陣分解47
2.3.1 Cholesky分解47
2.3.2 LU分解48
2.3.3 QR分解48
2.3.4奇異值分解48
2.3.5特徵分解49
2.3.6行列式50
2.3.7矩陣逆50
2.4求解線性方程組51
第3章統計學53
3.1數據的概率起源54
3.1.1概率密度54
3.1.2累積概率55
3.1 .3統計矩55
3.1.4熵56
3.1.5連續分佈57
3.1.6離散分佈68
3.2數據集的特徵73
3.2.1矩的計算73
3.2.2描述性統計74
3 .2.3多元統計79
3.2.4協方差與相關係數81
3.2.5回歸82
3.3處理大數據集84
3.3.1累積統計85
3.3.2統計結果的歸併87
3.3.3回歸88
3.4數據庫內置函數的應用89
第4章數據操作91
4.1轉換文本數據91
4.1.1從文檔中提取標記91
4.1.2利用字典92
4 .1.3文檔向量化94
4.2數值數據的縮放與歸一化97
4.2.1對列進行縮放97
4.2.2對行進行縮放99
4.2.3矩陣的縮放算子100
4.3將數據降維至主成分102
4.3.1協方差方法105
4.3.2 SVD方法106
4.4創建訓練集、驗證集及測試集108
4.4.1基於索引的重新採樣108
4.4.2基於列表的重新採樣110
4.4.3小批量111
4.5標籤的編碼111
4.5.1泛型編碼器111
4.5.2一位有效編碼112
第5章學習與預測115
5.1學習算法115
5.1.1迭代學習過程115
5 .1.2梯度下降優化方法117
5.2評估學習過程119
5.2.1損失函數最小化119
5.2.2方差和的最小化127
5.2.3輪廓係數127
5.2.4對數似然性128
5.2.5分類器的準確率129
5.3無監督型學習131
5.3.1 K均值聚類131
5.3.2 DBSCAN 133
5.3.3高斯混合137
5.4監督型學習141
5.4.1樸素貝葉斯142
5.4.2線性模型148
5.4.3深度網絡156
第6章Hadoop MapReduce 161
6.1 Hadoop分佈式文件系統161
6. 2 MapReduce體系結構162
6.3編寫MapReduce應用163
6.3.1剖析MapReduce任務164
6.3.2 Hadoop數據類型164
6.3.3映射器167
6.3.4歸約器168
6.3.5 JSON字符串作為文本的簡單性169
6.3.6部署技巧170
6.4 MapReduce示例171
6.4.1單詞計數171
6.4.2定制單詞計數172
6.4.3稀疏線性代數173
附錄A數據集177
作者簡介186
關於封面186
收起全部↑


作者介紹


Michael R. Brzustowicz
從研究物理的博士後轉型為經驗豐富的數據科學家,
專注於建立分佈式數據系統,並從海量數據中提取知識。
他大部分的時間都在編寫(日常大數據問題的)
統計模型方法及機器學習方法的定制多線程代碼。
他是多家創業公司的合夥人,並在舊金山大學擔任兼職教授。

【譯者簡介】
姜建錦
清華大學博士,北京電子科技學院網絡空間安全系教師,
目前主要從事計算機系統結構、分佈式系統等的研究及相關教學工作。

趙緒營
中科院博士,北京電子科技學院網絡空間安全系教師,
目前主要從事生物特徵識別與加密,計算機視覺的研究及相關教學工作。

張岩
博士,北京電子科技學院網絡空間安全系副教授,
目前主要從事信息物理融合系統、軟件系統建模和驗證的研究及相關教學工作。




相關書籍

Software Architecture with Python

作者 Anand Balachandran Pillai

2020-04-01

應用統計分析:SPSS的運用

作者 陳寬裕

2020-04-01

Python3 網絡爬蟲開發實戰, 2/e

作者 崔慶才

2020-04-01