Spark MLlib機器學習實踐
內容描述
<內容簡介>
Spark作為新興的、應用範圍最為廣泛的大數據處理開源框架引起了廣泛的關註,它吸引了大量程序設計和開發人員進行相關內容的學習與開發,其中MLlib是Spark框架使用的核心。王曉華編著的《Spark MLlib機器學習實踐》是一本細緻介紹Spark MLlib程序設計的圖書,入門簡單,示例豐富。本書分為12章,從Spark基礎安裝和配置開始,依次介紹MLlib程序設計基礎、MLlib的數據對象構建、MLlib中RDD使用介紹,各種分類、聚類、回歸等數據處理方法,最後還通過一個完整的實例,回顧了前面的學習內容,並通過代碼實現了一個完整的分析過程。本書理論內容由淺而深,採取實例和理論相結合的方式,內容全面而詳盡,講解細緻直觀,適合Spark MLlib初學者、大數據分析和挖掘人員,也適合高校和培訓學習相關專業的師生教學參考。
<章節目錄>
第1章 星星之火 1.1 大數據時代 1.2 大數據分析時代 1.3 簡單、優雅、有效——這就是Spark 1.4 核心——MLlib 1.5 星星之火,可以燎原 1.6 小結第2章 Spark安裝和開發環境配置 2.1 Windows單機模式Spark安裝和配置 2.1.1 Windows 7安裝Java 2.1.2 Windows 7安裝Scala 2.1.3 Intellij IDE下載和安裝 2.1.4 Intellij IDE中Scala插件的安裝 2.1.5 Spark單機版安裝 2.2 經典的WordCount 2.2.1 Spark實現WordCount 2.2.2 MapReduce實現WordCount 2.3 小結第3章 RDD詳解 3.1 RDD是什麼 3.1.1 RDD名稱的秘密 3.1.2 RDD特性 3.1.3 與其他分佈式共享內存的區別 3.1.4 RDD缺陷 3.2 RDD工作原理 3.2.1 RDD工作原理 3.2.2 RDD的相互依賴 3.3 RDD應用API詳解 3.3.1 使用aggregate方法對給定的數據集進行方法設定 3.3.2 提前計算的cache方法 3.3.3 笛卡爾操作的cartesian方法 3.3.4 分片存儲的coalesce方法 3.3.5 以value計算的countByValue方法 3.3.6 以key計算的countByKey方法 3.3.7 除去數據集中重複項的distinct方法 3.3.8 過濾數據的filter方法 3.3.9 以行為單位操作數據的flatMap方法 3.3.10 以單個數據為目標進行操作的map方法 3.3.11 分組數據的groupBy方法 3.3.12 生成鍵值對的keyBy方法 3.3.13 同時對兩個數據進行處理的reduce方法 3.3.14 對數據進行重新排序的sortBy方法 3.3.15 合併壓縮的zip方法 3.4 小結第4章 MLlib基本概念 4.1 MLlib基本數據類型 4.1.1 多種數據類型 4.1.2 從本地向量集起步 4.1.3 向量標籤的使用 4.1.4 本地矩陣的使用
4.1.5 分佈式矩陣的使用 4.2 MLlib數理統計基本概念 4.2.1 基本統計量 4.2.2 統計量基本數據 4.2.3 距離計算 4.2.4 兩組數據相關係數計算 4.2.5 分層抽樣 4.2.6 假設檢驗 4.2.7 隨機數 4.3 小結第5章 協同過濾演算法第6章 MLlib線性回歸理論與實戰第7章 MLlib分類實戰第8章 決策樹與保序回歸第9章 MLlib中聚類詳解第10章 MLlib中關聯規則第11章 數據降維第12章 特徵提取和轉換第13章 MLlib實戰演練——鳶尾花分析
<作者介紹>
王曉華,高校資深電腦專業講師,給研究生和本科生講授面向對象程序設計、數據結構、Hadoop程序設計等相關課程。主要研究方向為雲計算、數據挖掘。曾主持和參與多項國家和省級科研課題,獨立完成一項科研成果獲省級成果認定,發表過多篇論文,申請有一項專利。