數亦有道 Python 數據科學指南
內容描述
本書結合數據科學的具體應用場景,由淺入深、循序漸進地引導讀者入門數據科學,覆蓋了數據獲取、數據預處理、數據分析等方面的內容,共 10 章。本書先是概括性地介紹各章的主要內容,然後通過一個個生動的案例講解數據獲取、數據預處理、自然語言處理、機器學習和深度學習等方面的應用,結尾通過答疑部分為讀者提供進一步學習的方向和方法的建議。本書各章的案例均基於具體應用場景,以簡單、清晰的方式對數據科學相關的技術原理和實際操作進行講解。
目錄大綱
第 1 章 入門導讀
1.1 環境設置
1.2 探索分析
1.3 數據獲取
1.4 數據預處理
1.5 自然語言處理
1.6 機器學習
1.7 深度學習
1.8 機器學習進階
1.9 答疑時間
第 2 章 環境設置
2.1 Python運行環境Anaconda的安裝
2.1.1 下載及安裝Anaconda
2.1.2 運行Anaconda
2.2 在線運行Python代碼
2.2.1 在線運行程序的需求
2.2.2 嘗試打開在線程序代碼
2.2.3 在線運行Python的實現過程
2.2.4 mybinder的運行原理
2.2.5 小結與思考
2.3 複製運行環境
2.3.1 在線環境的局限
2.3.2 複製運行環境流程
2.3.3 小結與思考
第 3 章 探索分析
3.1 詞云製作
3.1.1 安裝WordCloud與數據準備
3.1.2 開始製作詞云
3.2 中文分詞
3.2.1 中文分詞的需求
3.2.2 中文分詞的操作
3.2.3 準備分詞數據
3.2.4 製作中文詞云
3.2.5 小結與思考
3.3 用Pandas存取和交換數據
3.3.1 數據格式的問題
3.3.2 數據樣例
3.3.3 CSV/TSV格式
3.3.4 pickle格式
3.3.5 JSON格式
3.3.6 小結與思考
3.4 可視化《三國演義》人名與兵器出現頻率
3.4.1 讀取人名數據
3.4.2 讀取《三國演義》文本數據
3.4.3 小結與思考.
3.5 用R語言快速探索數據集
3.5.1 啟動Rstudio
3.5.2 使用summarytools包
3.5.3 分析結果解讀
3.5.4 小結與思考
3.6 快速了解科研領域
3.6.1 Biblioshiny分析工具
3.6.2 期刊文獻數據
3.6.3 作者分析
3.6.4 文獻被引用分析
3.6.5 研究主題分析
3.6.6 小結與思考
第 4 章 數據獲取
4.1 獲取開放數據
4.1.1 獲取數據的需求
4.1.2 開放數據的獲取
4.2 利用API收集與分析網絡數據
4.2.1 API的含義
4.2.2 阿里云云市場
4.2.3 代碼運行環境
4.2.4 獲取天氣數據
4.2.5 分析各地氣候
4.2.6 小結與思考
4.3 Python抓取數據
4.3.1 爬蟲的概念
4.3.2 抓取目標
4.3.3 爬蟲運行環境
4.3.4 爬蟲實現過程
4.3.5 小結與思考
第 5 章 數據預處理
5.1 使用正則表達式抽取文本結構化數據
5.1.1 自動抽取的樣例
5.1.2 正則表達式
5.1.3 尋找規則
5.1.4 實際匹配操作
5.1.5 小結與思考
5.2 批量抽取PDF文本內容
5.2.1 下載實驗數據
5.2.2 設置運行環境
5.2.3 運用PDFMiner抽取數據
5.2.4 小結與思考
5.3 智能批量壓縮圖片
5.3.1 批量統一處理圖片
5.3.2 原始數據
5.3.3 壓縮圖片的具體過程
5.3.4 將代碼整合為函數
5.3.5 小結與思考
5.4 安裝Python軟件包遇錯誤,怎麼辦?
5.4.1 屢次安裝失敗的遭遇
5.4.2 系統依賴條件
5.4.3 又遇到了新問題
5.4.4 轉換思路解決問題
5.4.5 生成PDF詞云的過程
5.4.6 小結與思考
第 6 章 自然語言處理
6.1 提取中文關鍵詞
6.1.1 文件編碼問題
6.1.2 關鍵詞提取操作
6.1.3 關鍵詞提取原理
6.1.4 小結與思考
6.2 情感分析
6.2.1 安裝情感分析依賴包
6.2.2 英文文本情感分析
6.2.3 中文文本情感分析
6.2.4 小結與思考
6.3 評論數據情感分析的時間序列可視化
6.3.1 餐廳評論數據
6.3.2 讀取數據並安裝依賴包
6.3.3 評論的情感分析可視化
6.3.4 小結與思考
6.4 對故事情節做情緒分析
6.4.1 情緒詞典
6.4.2 數據準備
6.4.3 安裝R
6.4.4 使用Python做文本數據清理
6.4.5 使用R做情緒分析
6.4.6 小結與思考
6.5 spaCy與詞嵌入
6.5.1 spaCy介紹
6.5.2 文本語法結構分析
6.5.3 文本語義分析
6.5.4 小結與思考
第 7 章 機器學習
7.1 機器學習做決策支持
7.1.1 尋找安全貸款的規律
7.1.2 決策樹
7.1.3 機器學習
7.1.4 數據準備與運行環境
7.1.5 構建決策樹
7.1.6 預測模型的準確率
7.2 中文文本情感分類模型
7.2.1 個性化的情感分析
7.2.2 餐廳評論數據
7.2.3 機器學習中的模型選擇
7.2.4 文本向量化
7.2.5 中文的向量化
7.2.6 運行環境
7.2.7 情感分類模型的訓練
7.2.8 小結與思考
7.3 從海量文章中抽取主題
7.3.1 信息過載的痛苦
7.3.2 文章主題
7.3.3 安裝依賴包
7.3.4 使用LDA抽取主題
7.3.5 小結與思考
第 8 章 深度學習
8.1 如何鎖定即將流失的客戶
8.1.1 尋找安全貸款的規律
8.1.2 運行環境
8.1.3 數據清理
8.1.4 嘗試使用決策樹
8.1.5 深度學習遊樂場
8.1.6 深度學習框架
8.1.7 嘗試使用TensorFlow
8.1.8 深度學習模型評估
8.1.9 小結與思考
8.2 識別動物圖像
8.2.1 計算機識別圖像
8.2.2 學習數據
8.2.3 配置運行環境
8.2.4 通過Turi Create識別圖像
8.2.5 卷積神經網絡
8.2.6 小結與思考
8.3 尋找近似圖像
8.3.1 近似圖像的作用
8.3.2 數據與配置環境
8.3.3 通過Turi Create查找近似圖像
8.3.4 遷移學習的原理
8.3.5 小結與思考
8.4 如何理解卷積神經網絡
8.5 如何理解循環神經網絡
8.6 循環神經網絡實現中文文本分類
8.6.1 概念準備
8.6.2 數據環境
8.6.3 數據預處理
8.6.4 詞嵌入矩陣
8.6.5 模型構建
8.6.6 分類效果討論
8.6.7 小結與思考
8.7 循環神經網絡預測嚴重交通擁堵
8.7.1 交通事件數據樣例
8.7.2 數據準備與配置環境
8.7.3 訓練模型與評估結果
8.7.4 小結與思考
8.8 用TensorFlow神經網絡分類表格數據
8.8.1 深度學習框架正在發生變化
8.8.2 實驗數據
8.8.3 實驗環境配置
8.8.4 模型訓練
8.8.5 疑惑
8.8.6 小結與思考
8.9 你的機器“不肯”學習,怎麼辦?
8.9.1 前情回顧
8.9.2 代碼
8.9.3 歸一化的重要性
8.9.4 新代碼
8.9.5 小結與思考
第 9 章 機器學習進階
9.1 二元分類任務
9.1.1 監督學習
9.1.2 機器學習的含義
9.1.3 結構化數據
9.1.4 圖像信息學習
9.1.5 文本數據學習
9.1.6 調用模型實施
9.2 有效溝通機器學習結果
9.2.1 簡單明了的解釋
9.2.2 對機器學習的反思
9.2.3 解釋學習結果的方法
9.2.4 小結與思考
9.3 機器學習中的訓練集、驗證集和測試集
9.3.1 準確率高就好嗎
9.3.2 測試集
9.3.3 驗證集
9.3.4 訓練集
9.3.5 小結與思考
第 10 章 答疑時間
10.1 Python編程遇到問題怎麼辦?
10.1.1 遭遇編程錯誤
10.1.2 照葫蘆畫葫蘆
10.1.3 照葫蘆畫瓢
10.1.4 找葫蘆畫瓢
10.1.5 小結與思考
10.2 如何高效學Python?
10.2.1 你是哪一類人
10.2.2 記憶與實踐
10.3 如何高效學習數據科學?
10.3.1 學習的焦慮
10.3.2 以目標為導向的學習
10.3.3 學習的深度
10.3.4 協作的快樂
10.3.5 小結與思考
10.4 數據科學入門後,該做什麼?
10.4.1 打開進階之路
10.4.2 實踐中學習
10.4.3 教學中學習
10.4.4 傳播中學習
10.4.5 小結與思考
作者介紹
王樹義
天津師範大學副教授,南開大學博士。研究方向為社交媒體信息分析,基於機器學習的自然語言處理,用戶隱私保護,計算社會科學。發表了 20 餘篇學術論文,擔任多個國際期刊審稿人。在簡書、玉樹芝蘭公眾平台、知乎等平台高質量分享計算機、寫作、效率工具等相關內容,粉絲累計近 20 萬。
翟羽佳
天津師範大學副教授,數據科學系系主任,南開大學與美國印第安納大學聯合培養博士,武漢大學信息管理學院博士後。 2018 年度天津市“131”創新型人才培養工程第三層次人選、2020 年天津市高校“青年後備人才支持計劃”人選。長期致力於知識擴散、文本挖掘、網絡社會治理以及數據驅動的知識發現等方向的研究。累計發表高水平論文 30 餘篇,長期擔任多個國際期刊的審稿人。