數據分析 — 統計、描述、預測與應用

數據分析 — 統計、描述、預測與應用

作者: [葡]喬·門德斯·莫雷拉 [巴西]安德烈·卡瓦略 [匈]托馬斯·霍瓦斯 吳常玉 譯
出版社: 清華大學
出版在: 2021-06-01
ISBN-13: 9787302568476
ISBN-10: 7302568472
裝訂格式: 平裝
總頁數: 252 頁





內容描述


本書介紹數據分析的統計基礎、種類劃分,並列舉大量實例以說明數據分析方法和算法。內容主要分 為4部分,第1部分為第1章,介紹一些概念,簡單描述數據分析方法和一些實例; 第2部分包括第2~7 章,介紹描述性分析和數據預處理的主要方法,包括描述統計、多元描述分析、聚類以及頻繁模式挖掘等; 第3部分包括第8~12章,介紹預測性分析的主要方法,其中包括多種回歸算法、二元回歸、分類的性能測 量以及基於概率和距離測量的方法,以及決策樹、人工神經網絡和支持向量機等較為先進的方法; 第4部 分為第13章,利用描述和預測這兩種方法,簡單討論文本、網頁以及社交媒體的應用。


目錄大綱


第1部分背 景 介 紹
第1章我們可以用數據做什麼
1.1大數據和數據科學
1.2大數據架構
1.3小數據
1.4什麼是數據
1.5數據分析簡單分類
1.6數據使用實例
1.6.1美國威斯康星州的乳腺癌數據
1.6.2波蘭企業破產數據
1.7一個數據分析項目
1.7.1數據分析方22簡史
1.7.2KDD過程
1.7.3CRISPDM方法
1.8本書的組織結構
1.9本書面向的對象
第2部分理 解 數 據
第2章描述統計學
2.1尺度類型
2.2描述單元分析
2.2.1單元頻數
2.2.2單元數據可視化
2.2.3單元統計
2.2.4常見的單元概率分佈
2.3描述性雙元分析
2.3.1兩個定量屬性
2.3.2兩個定性屬性,其中至少有一個是名義屬性
2.3.3兩個序數屬性
2.4本章小結
2.5練習
第3章描述性多元分析
3.1多元頻數
3.2多元數據可視化
3.3多元統計
3.3.1位置多元統計
3.3.2離散多元統計
3.4信息圖和詞云
3.4.1信息圖
3.4.2詞云
3.5本章小結
3.6練習
第4章數據質量和預處理
4.1數據質量
4.1.1缺失值
4.1.2冗餘數據
4.1.3不一致數據
4.1.4噪聲數據
4.1.5離群值
4.2轉換為不同的尺度類型
4.2.1名義尺度轉換為相對尺度
4.2.2序數尺度轉換為相對或絕對尺度
4.2.3相對或絕對尺度轉換為序數或名義尺度
4.3轉換為不同尺度
4.4數據轉換
4.5維度降低
4.5.1屬性聚合
4.5.2屬性選擇
4.6本章小結
4.7練習
第5章聚類
5.1距離度量
5.1.1常見屬性類型值之間的差異
5.1.2定量屬性對象的距離度量
5.1.3非常規屬性的距離度量
5.2聚類驗證
5.3聚類技術
5.3.1K均值
5.3.2DBSCAN
5.3.3聚合層次聚類技術
5.4本章小結
5.5練習
第6章頻繁模式挖掘
6.1頻繁項集
6.1.1設置2小支持度閾值
6.1.2Apriori——基於連接的方法
6.1.3Eclat算法
6.1.4FPGrowth
6.1.52大頻繁項集和閉合頻繁項集
6.2關聯規則
6.3支持度與置信度的意義
6.3.1交叉支持度模式
6.3.2提升度
6.3.3辛普森悖論
6.4其他模式
6.4.1序列模式
6.4.2頻繁序列挖掘
6.4.3閉合和2大序列
6.5本章小結
6.6練習
第7章描述性分析的備忘單和項目
7.1描述性分析備忘單
7.1.1數據總結
7.1.2聚類方法
7.1.3頻繁模式挖掘
7.2描述性分析項目
7.2.1理解業務
7.2.2理解數據
7.2.3準備數據
7.2.4建模
7.2.5評價
7.2.6部署
第3部分預 測 未 知
第8章回歸
8.1預測性能評估
8.1.1泛化
8.1.2模型驗證
8.1.3回歸的預測性能度量
8.2尋找模型參數
8.2.1線性回歸
8.2.2偏差方差權衡
8.2.3收縮方法
8.2.4使用屬性的線性組合方法
8.3技術選型
8.4本章小結
8.5練習
第9章分類
9.1二元分類
9.2分類的預測性能度量
9.3基於距離的學習算法
9.3.1k近鄰算法
9.3.2基於案例的推理
9.4概率分類算法
9.4.1邏輯回歸算法
9.4.2樸素貝葉斯(NB)算法
9.5本章小結
9.6練習
第10章其他預測方法
10.1基於搜索的算法
10.1.1決策樹歸納算法
10.1.2回歸決策樹
10.2基於優化的算法
10.2.1人工神經網絡
10.2.2支持向量機
10.3本章小結
10.4練習
第11章高級預測話題
11.1集成學習
11.1.1Bagging
11.1.2隨機森林
11.1.3AdaBoost
11.2算法的偏差
11.3非二元分類任務
11.3.1單類分類
11.3.2多類分類
11.3.3排序分類
11.3.4多標籤分類
11.3.5層次分類
11.4高級預測數據準備技術
11.4.1數據分類不均衡
11.4.2不完全目標標記
11.5具有監督可解釋技術的描述和預測
11.6練習
第12章預測性分析的備忘單和項目
12.1預測性分析備忘單
12.2預測性分析項目
12.2.1業務理解
12.2.2數據理解
12.2.3數據準備
12.2.4建模
12.2.5評估
12.2.6部署
第4部分常見的數據分析應用
第13章文本、網絡和社交媒體應用
13.1文本挖掘
13.1.1數據採集
13.1.2特徵提取
13.1.3剩下的階段
13.1.4趨勢
13.2推薦系統
13.2.1反饋
13.2.2推薦任務
13.2.3推薦技術
13.2.4小結
13.3社交網絡分析
13.3.1社交網絡的表示
13.3.2節點的基本屬性
13.3.3網絡的基本和結構屬性
13.3.4趨勢和小結
13.4練習
附錄A對CRISPDM方法的全面描述
參考文獻


作者介紹


[葡]喬·門德斯·莫雷拉(João Mendes Moreira)
博士,葡萄牙波爾圖大學(University of Porto)工程系教授,葡萄牙波爾圖人工智能與決策支持實驗室(LIAAD-INESC TEC, Porto)研究員。

[巴]安德烈·卡瓦略(André de Carvalho)
博士,巴西聖保羅大學(São Paulo)數學和計算機科學研究所教授。

[匈]托馬斯·霍瓦斯(Tomáš Horváth)
博士,匈牙利布達佩斯羅蘭大學(Eötvös Loránd University )助理教授,與斯洛伐克科希策帕沃爾·約瑟夫·沙法利克大學(Pavol Jozef Šafárik University)長期進行科研合作。




相關書籍

Graphing Data with R: An Introduction (Paperback)

作者 John Jay Hilfiger

2021-06-01

Python 數據挖掘與機器學習

作者 魏偉一 張國治

2021-06-01

PYTHON機器學習(第2版)(影印版)

作者 Raschka

2021-06-01