Spark數據分析:基於Python語言

Spark數據分析:基於Python語言

作者: [澳] 傑夫瑞·艾文(Jeffrey Aven)
出版社: 機械工業
出版在: 2019-04-01
ISBN-13: 9787111622727
ISBN-10: 7111622723





內容描述


本書介紹了使用Spark及其擴展、子項目,以及更廣的生態系統所需的所有知識,並使用常用而且直觀的PySpark開發環境提供了編程示例。本書專註於Python語言,廣大的數據從業人員、分析師和開發人員,即使幾乎沒有Hadoop或Spark經驗,也可以輕松上手。
本書包括從Spark基本編程到高級編程,再到Spark SQL和機器學習的廣泛內容。你會學到如何使用Spark高效管理各種形式的數據:流式數據、結構化數據、半結構化數據,還有非結構化數據。

本書內容
• 理解Spark在大數據和Hadoop生態圈中不斷發展的角色
• 使用各種部署模式創建Spark集群,並實現控制和優化
• 掌握Spark Core的RDD API編程技術,並使用高級的API平臺結構(包括共享變量、RDD存儲、分區等)擴展、加速和優化Spark執行
• 高效地將SQL和非關系型數據存儲與Spark集成
• 使用Spark Streaming和Apache Kafka處理流式數據和消息
• 使用SparkR和Spark MLlib實現預測建模




相關書籍

Excel 資料處理分析 高手 (舊名: Excel 2013 在資料處理與分析上的應用)

作者 林佳生

2019-04-01

Python Network Programming Cookbook Second Edition

作者 Pradeeban Kathiravelu Dr. M. O. Faruque Sarker

2019-04-01

Foundations for Architecting Data Solutions: Managing Successful Data Projects

作者 Ted Malaska Jonathan Seidman

2019-04-01