大數據的下一步:Spark MLlib機器學習實戰技巧大公開 (舊名: 比 Hadoop+Python 還強:Spark MLlib 機器學習實作)

大數據的下一步:Spark MLlib機器學習實戰技巧大公開 (舊名: 比 Hadoop+Python 還強:Spark MLlib 機器學習實作)

作者: 王曉華
出版社: 佳魁資訊
出版在: 2018-07-31
ISBN-13: 9789863796794
ISBN-10: 9863796794
總頁數: 264 頁




內容描述


本書特色
❑ 從應用實作出發:儘量避免純粹的理論知識介紹和高深技術研討,用最簡單的、典型的範例引伸出核心知識,最後還指出通往「高精尖」進一步深入學習的道路。
❑ 系統介紹MLlib全貌:全面介紹了MLlib相關資料採擷的基本結構與上層程式設計,讓讀者在學習過程中不至於迷失方向。
❑ 簡潔的理論:本書在寫作上淺顯容易,沒有深奧的數學知識,讓讀者透過輕鬆愉悅地閱讀掌握相關內容。
❑ 創新的技術:每章都會用範例描述的形式,幫助讀者更進一步地學習內容。

❑ 程式遵循重建原理:避免程式污染,引導讀者寫出優秀、簡潔、可維護的程式。

適用:欲接觸或對Spark MLlib有興趣的讀者最佳入門書,亦適合大數據採擷、分析等相關領域之從業人員與師生作為參考之用。


目錄大綱


Chapter 01 星星之火
1.1 大數據時代
1.2 大數據分析時代
1.3 簡單、優雅、有效--這就是Spark
1.4 核心--MLlib
1.5 星星之火,可以燎原
1.6 小結
Chapter 02 Spark安裝和開發環境設定
2.1 Windows 單機模式Spark安裝和設定
2.2 經典的WordCount
2.3 小結
Chapter 03 RDD詳解
3.1 RDD是什麼
3.2 RDD工作原理
3.3 RDD應用API詳解
3.4 小結
Chapter 04 MLlib基本概念
4.1 MLlib基本資料型態
4.2 MLlib數理統計基本概念
4.3 小結
Chapter 05 協作過濾演算法
5.1 協作過濾
5.2 相似度度量
5.3 MLlib中的交替最小平方法(ALS演算法)
5.4 小結
Chapter 06 MLlib線性回歸理論與實戰
6.1 隨機梯度下降演算法詳解
6.2 MLlib回歸的過擬合
6.3 MLlib線性回歸實戰
6.4 小結
Chapter 07 MLlib分類實戰
7.1 邏輯回歸詳解
7.2 支援向量機詳解
7.3 單純貝氏詳解
7.4 小結
Chapter 08 決策樹與保序回歸
8.1 決策樹詳解
8.2 保序回歸詳解
8.3 小結
Chapter 09 MLlib中分群詳解
9.1 分群與分類
9.2 MLlib 中的Kmeans演算法
9.3 高斯混合分群
9.4 快速反覆運算分群
9.5 小結
Chapter 10 MLlib中連結規則
10.1 Apriori頻繁項集演算法
10.2 FP-growth演算法
10.3 小結
Chapter 11 資料降維
11.1 奇異值分解(SVD)
11.2 主成分分析(PCA)
11.3 小結
Chapter 12 特徵分析和轉換
12.1 TF-IDF
12.2 詞向量化工具
12.3 以卡方檢定為基礎的特徵選擇
12.4 小結
Chapter 13 MLlib實戰演練--鳶尾花分析
13.1 建模說明
13.2 資料前置處理和分析
13.3 長與寬之間的關係--資料集的回歸分析
13.4 使用分類和分群對鳶尾花資料集進行處理
13.5 最後的判斷--決策樹測試
13.6 小結




相關書籍

用 Excel 學 Python 資料分析

作者 張俊紅

2018-07-31

Python for Finance Cookbook

作者 Eryk Lewinson

2018-07-31

機器學習基礎 — 原理、算法與實踐

作者 袁梅宇

2018-07-31