Python應用實戰(爬蟲文本分析與可視化)
內容描述
歡迎來到Python的世界。
本書介紹了Python的語法、數據結構等基礎知識,以及經典的Python爬蟲、網頁文本分析及可視化。
在本書中,讀者不僅可以與Python“結識”,還會遇到新“朋友”———瀏覽器的開發者工具,
通過它來了解HTML編寫網頁的語言,並進行結構化的網頁分析和所需數據的提取。
拿來主義特別適合來類比Python語言中的庫,Python將與re、requests、lxml等經典的庫組合在一起,
自動抓取網頁數據的爬蟲。Pandas這個工具會對抓取的數據進行文本分析,
並實現將枯燥的數據進行漂亮的可視化呈現。
千里之行,始於足下,歡迎進入本書的奇妙之旅。
目錄大綱
目錄
第1章初識Python
1.1使用IDLE
1.2從字符串著手
1.3複雜數據的福音——列表
1.3.1創建列表
1.3.2列表的操作
1.4處理數據——條件判斷
1.5處理數據——循環
1.6處理數據進階——嵌套語句
1.7函數
1.8拿來就用——模塊
1.9文件
1.10處理異常
第2章網頁
2.1工具準備
2.2從URL開始
2.2.1簡單獲取URL
2.2.2鏈接與URL
2.3編寫網頁的語言— —HTML
2.3.1創建自己的第一個網頁
2.3.2標籤——創建網頁的方塊
2.3.3標籤屬性
2.4 CSS與class
2.5 JavaScript和id
2.6網頁分析工具
2.6.1谷歌開發者工具
2.6.2查看網頁結構
2.6.3定位指定的元素
2.6.4篩選不同的資源
2.7網頁的快遞——HTTP
2.7.1 HTTP請求
2.7.2 HTTP響應
2.7.3 HTTP的應用——Cookie和Session
2.7.4實戰——HTTP的交互過程
2.8以URL結束
2.9本章總結
第3章數據抓取
3.1工具準備
3.2 Xpath和lxml.html
3.2.1網頁分析利器——lxml
3.2.2 XPath
3.2.3 XPath使用實例
3.2.4 XPath演示
3.3關於robots.txt
3.4小試牛刀
3.4.1過程分析
3.4.2動手敲代碼
3.4.3小結
3.4.4擴展
3.5獲取電影數據(上)
3.5.1過程分析
3.5.2動手敲代碼
3.5.3小結
3.6獲取電影數據(下)
3.6. 1過程分析
3.6.2動手敲代碼
3.6.3考慮加強代碼的健壯性
3.6.4小結
3.7另類的網頁抓取
3.7.1過程分析
3.7.2動手敲代碼
3.7.3小結
3.8爬蟲與網絡機器人
3.9本章總結
第4章文本處理
4.1正則表達式
4.1.1怎樣進行匹配
4.1.2常用的元字符
4.2更強的文本工具——Python的re庫
4.2.1匹配對象怎麼用
4.2.2使用regex來搜索
4.2.3使用regex來替換
4.2.4更方便查找
4.2.5 re庫中的控制標誌
4.2.6 replace()和re.sub()
4.2.7實現更高級的strip()方法
4.2.8新的拆分方法re.split()
4.2. 9怎樣提取中文
4.3電影數據的處理
4.3.1提取之前的觀察
4.3.2需要獲取哪些數據
4.3.3多樣化的方法
4.3.4格式化的數據
4.4本章總結
第5章數據分析
5.1工具準備
5.1.1配置Jupyter Notebook
5.1.2數據生成幫手——Numpy
5.1.3 Pandas中的數據結構
5.2像一維數組的Series
5.2.1獲取Series信息
5.2.2 Series進行數學運算
5.2.3對Series進行一些操作
5.2.4方法串聯
5.2.5操作Series中的字符串數據
5.2.6小結一下Series
5.3 DataFrame
5.3.1創建DataFrame
5.3.2對齊
5.3.3了解DataFrame
5.3 .4常用DataFrame操作
5.3.5數據的導入與導出
5.4簡單數據分析
5.4.1電影評分分佈
5.4.2電影產量趨勢
5.4.3評論人數最多的電影
5.4.4發行電影最多的國家
5.5看得見的數據
5.5.1線圖
5.5.2柱狀圖
5.5.3餅圖
5.6 matplotlib
5.6.1繪圖方法
5.6.2子圖形及佈局
5.6.3圖形大小、顏色和样式
5.7畫一張圖來結尾
5.8本章總結