Python數據分析與大數據處理從入門到精通
內容描述
本書主要講解數據分析與大數據處理所需的技術、基礎設施、核心概念、實施流程。
從編程語言準備、數據采集與清洗、數據分析與可視化,到大型數據的分布式存儲與分布式計算,
貫穿了整個大數據項目開發流程。本書輕理論、重實踐,目的是讓讀者快速上手。
第1篇首先介紹了Python的基本語法、面向對象開發、模塊化設計等,掌握Python的編程方式。
第2篇介紹了網絡數據采集、數據清洗、數據存儲等技術。第3篇介紹了Python常用的數據分析工具,
擴展了更多的數據清洗、插值方法,為最終的數據可視化奠定基礎。第4篇是大數據分析的重點。
首先介紹了Hadoop的框架原理、調度原理,MapReduce原理與編程模型、環境搭建,
接著介紹了Spark框架原理、環境搭建方式,以及如何與Hive等第三方工具進行交互,
還介紹了最新的結構化流式處理技術。
第5篇通過三個項目實例,綜合介紹了如何分析網頁、如何搭建分布式爬蟲、
如何應對常見的反爬蟲、如何設計數據模型、如何設計架構模型、如何在實踐中綜合運用前四篇涉及的技術。
本書既適合非計算機專業的編程“小白”,適合剛畢業或即將畢業走向工作崗位的廣大畢業生,
以及已經有編程經驗,但想轉行做大數據分析的專業人士。同時,還可以作為廣大職業院校、
電腦培訓班的教學參考用書。