Python3 爬蟲、數據清洗與可視化實戰, 2/e

Python3 爬蟲、數據清洗與可視化實戰, 2/e

作者: 零一 韓要賓 黃園園
出版社: 電子工業
出版在: 2020-07-01
ISBN-13: 9787121391187
ISBN-10: 712139118X
裝訂格式: 平裝
總頁數: 247 頁





內容描述


本書是一本通過實戰教初學者學習爬取數據、清洗和組織數據進行分析和可視化的Python讀物。
書中案例均經過實戰檢驗,筆者在實踐過程中深感採集數據、清洗和組織數據的重要性,
作為一名數據行業的“碼農”,數據就是沃土,沒有數據,我們將無田可耕。
本書共13章,包括6個核心主題,其一是Python基礎入門,包括環境配置、基本操作、
數據類型、語句和函數;其二是Python爬蟲的構建,包括網頁結構解析、爬蟲流程設計、
代碼優化、爬蟲效率優化、無線端的數據採集、容錯處理、反防爬蟲、表單交互和模擬頁麵點擊;
其三是Python數據庫應用,包括MongoDB、MySQL在Python中的連接與應用;
其四是數據清洗和組織,包括NumPy數組知識,以及pandas數據的讀寫、分組、
變形,缺失值、異常值和重複值處理,時序數據處理和正則表達式的使用等;
其五是綜合應用實例,幫助讀者貫穿爬蟲、數據清洗與組織的過程;
最後是數據可視化,包括matplotlib和pyecharts兩個庫的使用,
涉及餅圖、柱形圖、線圖、詞云圖等圖形,幫助讀者進入可視化的殿堂。
本書以實戰為主,適合Python初學者及高等院校相關專業的學生閱讀,也適合Python培訓機構作為實驗教材。


目錄大綱


目錄
第1章Python語言基礎
1.1安裝Python環境
1.1.1 Python 3.6.2安裝與配置
1.1.2使用IDE工具——PyCharm
1.1.3使用IDE工具——Anaconda
1.2 Python操作入門
1.2.1編寫第一個Python代碼
1.2.2 Python基本操作
1.2.3變量
1.3 Python數據類型
1.3.1數字
1.3.2字符串
1.3.3列表
1.3.4元組
1.3.5集合
1.3.6字典
1.4 Python語句與函數
1.4.1條件語句
1.4.2循環語句
1.4.3函數
1.5習題
第2章數據採集的基本知識
2.1關於爬蟲的合法性
2.2了解網頁
2.2.1認識網頁結構
2.2.2寫一個簡單的HTML
2.3使用requests庫請求網站
2.3.1安裝requests庫
2.3.2爬蟲的基本原理
2.3.3使用GET方式抓取數據
2.3.4使用POST方式抓取數據
2.4使用Beautiful Soup解析網頁
2.5清洗和組織數據
2.6爬蟲攻防戰
2.7關於什麼時候存儲數據
2.8習題
第3章用API爬取天氣預報數據
3.1註冊免費API和閱讀技術文檔
3.2獲取API數據
3.3存儲數據到MongoDB
3.3.1下載並安裝MongoDB
3.3.2在PyCharm中安裝Mongo Plugin
3.3.3將數據存入MongoDB中
3.4 MongoDB數據庫查詢
3.5習題
第4章大型爬蟲案例:抓取某電商網站的商品數據
4.1觀察頁面特徵和解析數據
4.2工作流程分析
4.3構建類目樹
4.4獲取景點產品列表
4.5代碼優化
4.6爬蟲效率優化
4.7容錯處理
4.8習題
第5章採集手機App數據
5.1模擬器及抓包環境配置
5.2 App數據抓包
5.3手機App數據的採集
5.4習題
第6章Scrapy爬蟲
6.1 Scrapy簡介
6.2安裝Scrapy
6.3案例:用Scrapy抓取股票行情
6.4習題
第7章Selenium爬蟲
7.1 Selenium簡介
7.2安裝Selenium
7.3 Selenium定位及操作元素
7.4案例:用Selenium抓取某電商網站數據
7.5習題
第8章爬蟲案例集錦
8.1採集外賣平台數據
8.1.1採集目標
8.1.2採集代碼
8.2採集內容平台數據
8.2.1採集目標
8.2.2採集代碼
8.3採集招聘平台數據
8.3.1採集目標
8.3.2採集代碼
8.4採集知識付費平台數據
8.4.1採集目標
8.4.2採集代碼
第9章數據庫連接和查詢
9.1使用PyMySQL
9.1.1連接數據庫
9.1.2案例:某電商網站女裝行業TOP100銷量數據
9.2使用SQLAlchemy
9.2.1 SQLAlchemy基本介紹
9.2. 2 SQLAlchemy基本語法
9.3 MongoDB
9.3.1 MongoDB基本語法
9.3.2案例:在某電商網站搜索“連衣裙”的商品數據
9.4習題
第10章NumPy數組操作
10.1 NumPy簡介
10.2一維數組
10.2.1數組與列表的異同
10.2.2數組的創建
10.3多維數組
10.3.1多維數組的高效性能
10.3.2多維數組的索引與切片
10.3.3多維數組的屬性和方法
10.4數組的運算
10.5習題
第11章pandas數據清洗
11.1數據讀寫、選擇、整理和描述
11.1.1從CSV中讀取數據
11.1.2向CSV中寫入數據
11.1.3數據選擇
11.1.4數據整理
11.1.5數據描述
11.2數據分組、分割、合併和變形
11.2.1數據分組
11.2.2數據分割
11.2.3數據合併
11.2.4數據變形
11.2.5案例:旅遊數據的分析與變形
11.3缺失值、異常值和重複值處理
11.3.1缺失值處理
11.3.2檢測和過濾異常值
11.3.3移除重複值
11.3.4案例:旅遊數據值的檢查與處理
11.4時序數據處理
11.4.1日期/時間數據轉換
11.4.2時序數據基礎操作
11.4.3案例:天氣預報數據分析與處理
11.5數據類型轉換
11.6正則表達式
11.6.1元字符與限定符
11.6.2案例:用正則表達式提取網頁文本信息
11.7習題
第12章綜合應用實例
12.1按性價比給用戶推薦旅遊產品
12.1.1數據採集
12.1.2數據清洗、建模
12.2通過熱力圖分析為用戶提供出行建議
12.2.1某旅遊網站熱門景點爬蟲代碼
12.2.2提取CSV文件中經緯度和銷量信息
12.2.3創建景點門票銷量熱力圖HTML文件
第13章數據可視化
13.1應用matplotlib畫圖
13.1.1畫出各省份平均價格、各省份平均成交量柱狀圖
13.1.2畫出各省份平均成交量折線圖、柱狀圖、箱形圖和餅圖
13.1.3畫出價格與成交量的散點圖
13.2應用pyecharts畫圖
13.2.1 Echarts簡介
13.2.2 pyecharts簡介
13.2.3初識pyecharts,玫瑰相送
13.2. 4 pyecharts基本語法
13.2.5基於商業分析的pyecharts圖


作者介紹


韓要賓

杭州沐垚科技有限公司COO,CDA數據分析研究院資深講師,
具有5年電商從業經驗,4年數據挖掘實戰經驗,專注於數據分析與挖掘、機器學習、深度學習的研究。
服務客戶:蘇寧易購、Decathlon、百草味、浙江師範大學等。




相關書籍

機器學習與應用

作者 雷明

2020-07-01

從來沒有這麼明白過:TensorFlow 上車就學會

作者 李錫涵 李卓桓 朱金鵬

2020-07-01

MATLAB 2020 GUI 程序設計從入門到精通

作者 李星新 黃熹

2020-07-01