大話Python機器學習
內容描述
《大話Python機器學習》從機器學習的基礎知識講起,全面、系統地介紹了機器學習算法的主要脈絡與框架,並在每個算法原理、應用等內容基礎上,結合Python編程語言深入淺出地介紹了機器學習中的數據處理、特徵選擇、算法應用等技巧,是一本兼具專業性與入門性的Python機器學習書籍。
《大話Python機器學習》分為13章,主要內容有機器學習入門基礎、應用Python實現機器學習前的準備、單變量線性回歸算法、線性回歸算法進階、邏輯回歸算法、貝葉斯分類算法、基於決策樹的分類算法、K近鄰算法、支持向量機、人工神經網絡、聚類算法、降維技術與關聯規則挖掘,在具體介紹時側重於機器學習原理、思想的理解,注重算法的應用,並輔助以相關的數據案例,方便讀者快速入門。*後一章從一個關於房價預測的機器學習項目出發,系統展示了數據處理、特徵提取、建模訓練等機器學習完整流程,帶領讀者完成從零基礎到入門數據科學家的飛躍。
《大話Python機器學習》條理清晰,內容深入淺出,以生活、工作中常見的例子來解釋機器學習中的相關概念、算法原理和運算思維等,特別適合互聯網創業者、數據挖掘相關人員、Python程序員、人工智能從業者、數據分析師、計算機專業的學生學習,任何對機器學習、人工智能感興趣的讀者均可選擇本書作為入門圖書參考學習。
目錄大綱
第1章 機器學習入門基礎
1.1 什麼是機器學習
1.2 機器學習的思維
1.3 機器學習的基本框架體系
1.4 機器學習項目的實施流程
1.5 機器學習有什麼用
1.6 小結
第2章 應用Python實現機器學習前的準備
2.1 為什麼使用Python
2.2 Python機器學習的一些常用庫
2.2.1 科學計算包(Numpy)簡介及應用
2.2.2 數據分析工具(Pandas)簡介及應用
2.2.3 數值計算包(Scipy)簡介及應用
2.2.4 繪圖工具庫(Matplotlib)簡介及應用
2.2.5 機器學習包(Scikitlearn)簡介及應用
2.3 Anaconda的安裝與使用
2.3.1 Anaconda的安裝
2.3.2 Anaconda中集成工具的使用
2.3.3 Conda的環境管理
2.4 Jupyter Notebook模式
2.4.1 Jupyter Notebook模式的特點
2.4.2 Jupyter Notebook模式的圖形界面
2.5 小結
第3章 從簡單案例入手:單變量線性回歸
3.1 回歸的本質
3.1.1 擬合的概念
3.1.2 擬合與回歸的區別
3.1.3 回歸的誕生
3.1.4 回歸的本質含義
3.2 單變量線性回歸算法
3.2.1 單變量線性回歸的基本設定
3.2.2 單變量線性回歸的常規求解
3.2.3 單變量線性回歸的評價與預測
3.3 用機器學習思維構建單變量線性回歸模型
3.3.1 一個簡單案例:波士頓房屋價格的擬合與預測
3.3.2 數據集劃分
3.3.3 模型求解與預測的Python實現
3.3.4 模型評價
3.3.5 與最小二乘法預測效果的比較
3.4 機器學習的初步印象總結
3.5 小結
第4章 線性回歸算法進階
4.1 多變量線性回歸算法
4.1.1 多變量線性回歸算法的最小二乘求解
4.1.2 多變量線性回歸的Python實現:影廳觀影人數的擬合(一)
4.2 梯度下降法求解多變量線性回歸
4.2.1 梯度下降的含義
4.2.2 梯度下降的相關概念
4.2.3 梯度下降法求解線性回歸算法
4.2.4 梯度下降法的Python實現:影廳觀影人數的擬合(二)
4.3 線性回歸的正則化
4.3.1 為什麼要使用正則化
4.3.2 正則化的原理
4.3.3 基於最小二乘法的正則化
4.3.4 基於梯度下降法的正則化
4.4 嶺回歸
4.4.1 嶺回歸的原理
4.4.2 嶺參數的取值方法
4.4.3 嶺回歸的Python實現:影廳觀影人數的擬合(三)
4.5 Lasso回歸
4.5.1 Lasso回歸的原理
4.5.2 Lasso回歸的參數求解
4.5.3 Lasso回歸的Python實現:影廳觀影人數的擬合(四)
4.6 小結
第5章 邏輯回歸算法
5.1 從線性回歸到分類問題
5.2 基於Sigmoid函數的分類
5.3 使用梯度下降法求最優解
5.3.1 對數似然函數
5.3.2 最大似然
5.3.3 梯度下降法的參數求解
5.4 邏輯回歸的Python實現
5.4.1 梯度下降法求解的Python示例:預測學生是否被錄取(一)
5.4.2 用Scikit learn做邏輯回歸:預測學生是否被錄取(二)
5.4.3 兩種實現方式的比較
5.5 邏輯回歸的正則化
5.6 小結
第6章 貝葉斯分類算法
6.1 貝葉斯分類器的分類原理
6.1.1 貝葉斯定理
6.1.2 貝葉斯定理的一個簡單例子
6.1.3 貝葉斯分類的原理與特點
6.2 樸素貝葉斯分類
6.2.1 樸素貝葉斯為什麼是“樸素”的
6.2.2 樸素貝葉斯分類算法的原理
6.2.3 樸素貝葉斯分類算法的參數估計
6.2.4 樸素貝葉斯的優、缺點及應用場景
6.3 高斯樸素貝葉斯分類算法
6.3.1 高斯樸素貝葉斯的Python實現:借款者信用等級評估(一)
6.3.2 預測結果的評價及其與邏輯回歸算法的比較
6.4 多項式樸素貝葉斯分類算
6.4.1 多項式樸素貝葉斯算法的原理
6.4.2 多項式樸素貝葉斯的Python實現:借款者信用等級評估(二)
6.5 伯努利樸素貝葉斯分類算法
6.6 貝葉斯網絡算法的基本原理與特點
6.6.1 貝葉斯網絡算法的基本原理
6.6.2 貝葉斯網絡算法的實現及其特點
6.7 小結
第7章 基於決策樹的分類算法
7.1 決策樹分類算法原理
7.1.1 以信息論為基礎的分類原理
7.1.2 決策樹分類算法框架
7.1.3 衡量標準:信息熵
7.1.4 決策樹算法的簡化
7.1.5 決策樹算法的優、缺點與應用
7.2 基本決策樹ID3算法
7.2.1 特徵選擇之信息增益
7.2.2 ID3算法原理與步驟
7.2.3 ID3算法的一個簡單例子:顧客購買服裝的屬性分析(一)
7.2.4 ID3算法的Python實現:顧客購買服裝的屬性分析(二)
7.3 其他決策樹算法
7.3.1 C4.5算法
7.3.2 CART算法
7.3.3 CART算法的應用舉例:顧客購買服裝的屬性分析(三)
7.3.4 CART算法的Python實現:顧客購買服裝的屬性分析(四)
7.4 決策樹剪枝方法
7.4.1 預剪枝及其實現
7.4.2 後剪枝之錯誤率降低剪枝方法
7.4.3 後剪枝之悲觀錯誤剪枝方法
7.5 決策樹的集成學習算法之隨機森林
7.5.1 集成學習算法
7.5.2 隨機森林
7.5.3 隨機森林的Python實現:解決交通擁堵問題(一)
7.6 小結
第8章 K近鄰算法
8.1 K近鄰算法的原理與特點
8.1.1 K近鄰算法的原理
8.1.2 K近鄰算法需要解決的問題
8.1.3 K近鄰算法的優、缺點
8.2 K近鄰算法的具體內容探討
8.2.1 距離的度量
8.2.2 最優屬性K的決定
8.2.3 K近鄰的快速搜索之Kd樹
8.3 K近鄰算法的應用
8.3.1 K近鄰算法的一個簡單例子:文化公司推廣活動的效果預估
8.3.2 K近鄰算法的Python實現:解決交通擁堵問題(二)
8.4 小結
第9章 支持向量機
9.1 支持向量機的基本知識
9.1.1 超平面
9.1.2 間隔與間隔最大化
9.1.3 函數間隔與幾何間隔
9.2 不同情形下的支持向量機
9.2.1 線性可分下的支持向量機
9.2.2 線性不可分下的支持向量機
9.2.3 非線性支持向量機
9.2.4 非線性支持向量機之核函數
9.2.5 多類分類支持向量機
9.2.6 支持向量回歸機
9.3 支持向量機的Python實現
9.3.1 線性可分SVM的Python實現
9.3.2 線性不可分SVM的Python實現
9.3.3 非線性可分SVM的Python實現
9.3.4 支持向量回歸機SVR的Python實現
9.4 小結
第10章 人工神經網絡
10.1 人工神經網絡入門
10.1.1 從神經元到神經網絡
10.1.2 神經網絡決策的一個簡單例子:小李要不要看電影
10.2 人工神經網絡基本理論
10.2.1 激活函數
10.2.2 人工神經網絡的基本結構
10.2.3 人工神經網絡的主要類型
10.2.4 人工神經網絡的特點
10.2.5 一個案例:異或邏輯的實現
10.3 BP神經網絡算法
10.3.1 BP算法的網絡結構與訓練方式
10.3.2 信息正向傳遞與誤差反向傳播
10.3.3 BP神經網絡的學習流程
10.3.4 BP算法的一個演示舉例
10.4 人工神經網絡的Python實現
10.4.1 人工神經網絡的Python案例:手寫數字的識別
10.4.2 手寫數字數據的神經網絡訓練
10.4.3 手寫數字數據的神經網絡評價與預測
10.5 從人工神經網絡到深度學習
10.5.1 從人工神經網絡到深度學習的演進
10.5.2 深度學習相比ANN的技術突破
小結
第11章 聚類算法
11.1 聚類算法概述
11.1.1 監督學習與無監督學習:原理與區別
11.1.2 從監督學習到無監督學習
11.1.3 聚類算法簡介與應用
11.1.4 主要的聚類算法
11.1.5 聚類結果的有效性評價
11.2 聚類之K均值算法
11.2.1 K均值算法的思想
11.2.2 K均值算法的流程
11.2.3 K均值算法的一個簡單例子:二維樣本的聚類
11.2.4 K均值算法的Python實現:不同含量果汁飲料的聚類(一)
11.3 層次聚類算法
11.3.1 層次聚類算法基本原理
11.3.2 算法的距離度量方法
11.3.3 層次聚類的簡單案例之AGNES算法
11.3.4 層次聚類的簡單案例之DIANA算法
11.3.5 層次聚類的Python實現:不同含量果汁飲料的聚類(二)
11.4 其他類型聚類算法簡介
11.4.1 基於密度的DBSCAN算法
11.4.2 基於網格的STING算法
11.5 小結
第12章 降維技術與關聯規則挖掘
12.1 降維技術
12.2 PCA降維技術的原理與實現
12.2.1 主成分分析(PCA)的基本原理
12.2.2 主成分分析(PCA)的步驟
12.2.3 PCA降維的一個簡單案例:二維樣本的降維(一)
12.2.4 PCA降維的Python實現:二維樣本的降維(二)
12.3 LDA降維技術的原理與實現
12.3.1 判別問題與線性判別函數
12.3.2 線性判別分析(LDA)的基本原理
12.3.3 LDA的特點與局限性
12.3.4 LDA降維技術的Python實現:二維樣本的降維(三)
12.4 關聯規則挖掘概述
12.4.1 關聯規則挖掘的相關定義
12.4.2 關聯規則的挖掘過程
12.4.3 關聯規則挖掘的分類
12.5 關聯規則挖掘的主要算法
12.5.1 Apriori算法簡介及案例:用戶資訊瀏覽的挖掘(一)
12.5.2 FP Growth算法簡介及案例:用戶資訊瀏覽的挖掘(二)
12.6 小結
第13章 機器學習項目實戰全流程入門
13.1 機器學習項目實戰概述
13.1.1 機器學習項目實戰的意義
13.1.2 如何入門一個機器學習競賽項目
13.2 一個簡單的機器學習項目實戰:房價預測
13.3 項目實戰之數據預處理
13.3.1 數據加載與預覽
13.3.2 缺失值處理
13.3.3 數據轉換
13.4 項目實戰之特徵提取
13.4.1 變量特徵圖表
13.4.2 變量關聯性分析
13.5 項目實戰之建模訓練
13.5.1 對訓練數據集的劃分
13.5.2 採用不同算法的建模訓練
13.5.3 參數調優
13.6 預測與提交結果
13.7 小結
作者介紹
張居營
中國財經大學經濟學博士、統計學碩士,8年以上的數據挖掘經驗與數據分析工作經歷,
對大數據、可視化和機器學習都有著較深的研究,為學生、科研人員、社會人士等提供上千次的數據資訊服務與解決方案,
並做過多次數據分析及機器學習等的入門培訓,作為核心人員,參與部門統計數據信息平台的搭建、設計,
有深厚的實踐積累;以CSDN 、知乎、天善智能等社區媒體專欄作者或特邀專家的形式,
分享相關文章數十篇,擅長將復雜的數據分析原理、計算機編程語言等用平白、通俗的語言表述出來。