Python 預測分析與機器學習

Python 預測分析與機器學習

作者: 王沁晨
出版社: 清華大學
出版在: 2022-05-01
ISBN-13: 9787302592549
ISBN-10: 7302592543





內容描述


本書從理解問題定義、瞭解數據內的高層信息、數據清理、視化數據,到基礎建模、模型優化,分享一個數據分析師的視角與思路。在預測分析的流程中,一步步用詳細的圖文代碼講解使用到的庫,如何正確使用各個庫中的方法和函數,以及在遇到類似的問題時如何套用學過的知識。 本書共8章。第1章對預測分析的流程進行一個高層次的概述。第2章介紹本書需要安裝使用的庫,並講解數據清理步驟的執行。第3章講解基礎建模需考慮的細節,結合第4章的模型選擇,可以搭建一個基礎的預測管道。第5章和第6章分別從模型和數據的角度講解如何優化預測表現。第7章講解時間序列這一特殊數據的預測方法。最後,第8章總結全書學習到的內容,解決一個實戰問題。 本書面向3類讀者。第1類,有編程基礎但毫無數據科學背景,有意入門的讀者;第2類,有數據科學理論基礎,有意進入實操的讀者,如剛畢業沒有業界經驗的學生;第3類,有數據科學理論基礎與實操經驗,但日常工作集中在數據分析管道中的數據分析師。


目錄大綱


目錄
 
第1章預測分析與機器學習的實用價值
 
1.1人工智能、機器學習與數據分析的關系
 
1.2什麽是預測分析
 
1.3預測分析在各行業中的應用
 
1.4預測分析流程概覽
 
1.5小結
 
第2章數據清理
 
2.1建立編程環境
 
2.1.1Anaconda簡介及安裝
 
2.1.2Jupyter Notebook 簡介及安裝
 
2.1.3Pandas簡介及安裝
 
2.1.4scikitlearn 簡介及安裝
 
2.1.5XGBoost、LightGBM、CatBoost簡介及安裝
 
2.1.6TensorFlow簡介及安裝
 
2.2面對異構數據如何下手
 
2.2.1什麽是異構數據
 
2.2.2如何處理異構數據
 
2.3數據誤差
 
2.3.1各類數據誤差及其影響
 
2.3.2如何處理數據誤差
 
2.4數據重新格式化
 
第3章基礎建模
 
3.1判斷何為X和y
 
3.1.1X和y的定義
 
3.1.2X和y的選擇對預測的影響
 
3.2訓練集、驗證集與測試集
 
3.2.1三者的定義及關系
 
3.2.2如何使用sklearn分離3個集
 
3.2.3如何使用Pandas手動分離3個集
 
3.3數據泄露
 
3.3.1不同類型的數據泄露
 
3.3.2發現並避免目標泄露
 
3.3.3避免訓練集與測試集的相互污染
 
3.4偏差與方差
 
3.4.1定義偏差與方差
 
3.4.2過擬合與欠擬合
 
3.4.3實踐中的過擬合與欠擬合
 
3.5小結
 
 
 
 
 
第4章模型選擇
 
4.1樸素貝葉斯分類器
 
4.2關聯規則算法
 
4.3K近鄰算法
 
4.4K均值聚類算法
 
4.5回歸算法
 
4.5.1線性回歸
 
4.5.2羅吉斯蒂回歸
 
4.6深度神經網絡
 
4.7決策樹
 
4.8森林算法
 
4.8.1隨機森林
 
4.8.2極端隨機樹
 
4.8.3孤立森林
 
4.9提升方法
 
4.9.1Adaboost
 
4.9.2XGBoost和LightGBM
 
4.9.3CatBoost
 
第5章模型優化
 
5.1損失函數和衡量指標 
 
5.1.1分類問題的衡量指標
 
5.1.2回歸問題的衡量指標
 
5.1.3損失函數
 
5.2K折交叉驗證
 
5.3超參數調試
 
5.3.1網格搜索法
 
5.3.2隨機搜索法
 
5.3.3遺傳算法
 
5.4函數正則化
 
第6章數據優化
 
6.1數據規範化
 
6.2異常值清理
 
6.3平滑法
 
6.4聚類
 
6.5特徵工程
 
第7章時間序列
 
7.1時間序列簡介
 
7.2時間序列數據探索
 
7.2.1加法模型下的可視化圖
 
7.2.2乘法模型下的部分可視化圖
 
7.3時間序列特徵提取
 
7.3.1時間特徵
 
7.3.2滯後特徵
 
7.3.3基於移動窗口的特徵
 
7.3.4基於展開窗口的特徵
 
7.4時間序列模型
 
7.4.1自回歸模型
 
7.4.2滑動平均模型
 
7.4.3整合移動平均自回歸模型
 
7.4.4季節性整合移動平均自回歸模型
 
第8章實戰
 
8.1M5預測分析比賽介紹
 
8.1.1數據介紹
 
8.1.2評估標準
 
8.2數據清理
 
8.3基礎建模
 
8.4優化




相關書籍

Computer Vision: Algorithms and Applications (Hardcover)

作者 Richard Szeliski

2022-05-01

MATLAB R2020a從入門到精通(升級版)

作者 魏鑫

2022-05-01

AI超級工程師

作者 熊友軍 王吉慶 黃勁松

2022-05-01