數據可視化與數據挖掘:基於Tableau和SPSS Modeler
內容描述
數據可視化允許利用圖形、圖像處理、電腦視覺以及用戶界面,通過表達、建模以及對立體、錶面、屬性以及動畫的顯示,對數據加以可視化解釋,數據可視化技術在國內市場長期看好,而現階段國內相關書籍相對較少,本書選擇這個方向進行系統基礎研究,希望為那些在想此領域有所發展的讀者提供學習幫助。在本書中,我們首先介紹數據可視化的一些基本知識,隨後重點介紹使用Tableau、SAS及SPSS Modeler的可視化界面進行數據分析與數據挖掘的方法。
目錄大綱
序言1
第1部分11
數據可視化篇11
1.1數據可視化12
1.1.1 Tableau 13
1.1.2 QlikView 15
1.1.3 Power BI 15
1.2可視化數據挖掘16
1.2.1 IBM SPSS Modeler 16
1.2.2 Intelligent Miner 17
1.2 .3 SAS Enterprise Miner 18
2.1軟件頁面簡介20
2.1.1開始頁面21
2.1.2數據源頁面23
2.1.3工作簿頁面24
2.2數據類型25
2.2.1主要數據類型25
2.2.2更改數據類型26
2.3運算符及優先級28
2.3.1算術運算符28
2.3.2邏輯運算符29
2.3.3比較運算符29
2.3.4運算符優先級29
2.4軟件安裝30
2.4.1軟件下載30
2.4.2安裝步驟31
2.4.3軟件激活35
2.5文件類型37
3.1連接到文件39
3.1.1 Excel文件39
3.1.2文本文件41
3.1.3 Access 43
3.1.4 JSON文件45
3.1.5 PDF文件47
3.1.6空間文件49
3.1.7統計文件51
3.1.8其他文件53
3.2連接到數據庫54
3.2.1Tableau Server 54
3.2.2 SQL Server 55
3.2.3 MySQL 56
3.2.4 Oracle 58
3.2.5 Amazon Redshift 59
3.2.6更多數據庫61
4.1維度和度量64
4.1.1維度64
4.1.2度量66
4.2連續和離散67
4.2.1連續字段67
4.2.2離散字段68
4.3工作區操作68
4.3.1“數據”窗格69
4.3.2“分析”窗格71
4.3.3工具欄71
4.3.4狀態欄72
4.3.5卡和功能區73
4.4工作表操作74
4.4.1創建工作表75
4.4.2複製工作表75
4.4.3導出工作表77
4.4.4刪除工作表77
4.5Tableau高級應用78
4.5.1表計算78
4.5.2創建字段81
4.5.3創建參數83
4.5.4聚合計算90
4.5.5缺失值處理92
5.1單變量圖形95
5.1.1條形圖95
5.1.2餅圖98
5.1.3直方圖100
5.1 .4折線圖101
5.2多變量圖形103
5.2.1散點圖103
5.2.2甘特圖105
5.3地圖106
5.3.1設置角色106
5.3.2標記地圖108
5.3.3添加字段信息108
5.3.4設置地圖選項109
5.3.5創建分佈圖112
5.3.6自定義地圖112
第2部分114
可視化數據挖掘篇114
6.1軟件簡介115
6.1.1軟件歷史115
6.1.2軟件界面117
6.1.3軟件特點123
6.2算法及功能124
6.2.1軟件算法124
6.2.2軟件功能125
6.3軟件安裝及啟動127
6.3.1軟件安裝127
6.3.2授權許可131
6.3.3啟動軟件134
7.1業務理解137
7.2數據理解138
7.3數據準備138
7.4建立模型140
7.5評估模型140
7.6應用模型141
8.1連接到文件142
8.1.1 Excel文件142
8.1.2變量文件143
8.1.3固定文件145
8.1.4 SAS文件146
8.1 .5 Statistics文件146
8.2連接到數據庫147
9.1數據流操作151
9.1.1生成數據流151
9.1.2添加和刪除節點151
9.1.3連接數據流152
9.1.4修改連接節點153
9.1.5執行數據流155
9.2圖形製作155
9.2.1散點圖155
9.2.2直方圖157
9.2.3網絡圖158
9.2.4評估圖160
第3部分162
案例實戰篇162
10.1建模思路164
10.2 Logistic回歸165
10.3業務理解167
10.4數據理解168
10.5數據準備171
10.6建立模型173
10.6.1模型參數設置173
10.6.2模型運行結果183
10.7模型評估187
10.7.1模型精確度187
10.7.2模型擬合度187
10.8模型應用189
10.9小結192
11.1建模思路194
11.2時間序列模型195
11.3業務理解196
11.4數據理解197
11.5數據準備198
11.6建立模型200
11.6.1模型參數設置200
11.6.2模型運行結果216
11.7模型評估218
11.8模型應用220
11.9小結221
12.1建模思路223
12.2聚類模型224
12.3業務理解225
12.4數據理解226
12.5數據準備228
12.6建立模型230
12.6.1模型參數設置230
12.6.2模型運行結果233
12.7模型評估236
12.8模型應用239
12.9小結241
13.1建模思路243
13.2判別分析244
13.3業務理解245
13.4數據理解246
13.5數據準備248
13.6建立模型249
13.6.1模型參數設置249
13.6.2模型運行結果257
13.7模型評估262
13.8模型應用263
13.9小結265
14.1建模思路268
14.2神經網絡模型269
14.2.1神經元270
14.2 .2多層感知器272
14.2.3徑向基函數273
14.3業務理解275
14.4數據理解276
14.5數據準備278
14.6建立模型280
14.6.1模型參數設置280
14.6.2模型運行結果287
14.7模型評估291
14.8模型應用292
14.9小結294
15.1建模思路296
15.2決策樹模型297
15.3業務理解299
15.4數據理解300
15.5數據準備303
15.6建立模型306
15.6.1模型參數設置306
15.6.2模型運行結果316
15.7模型評估318
15.7.1模型精確度318
15.7.2模型擬合度318
15.8模型應用320
15.9小結323
附錄A 324
配置MySQL ODBC數據源324
A1添加數據源管理器324
A2選擇相應的驅動程序324
A3連接數據庫服務器325
附錄B 327
Tableau重要函數327
B1數字函數327
B2字符串函數329
B3日期函數331
B4類型轉換334
B5邏輯函數335
B6聚合函數337
B7直通函數338
B8用戶函數340
B9表計算函數341
B10其他函數346
附錄C 349
SPSS Modele函數349
C1信息函數349
C2轉換函數350
C3比較函數351
C4邏輯函數352
C5數值函數352
C6三角函數353
C7概率函數354
C8位元整數運算354
C9隨機函數355
C10字符串函數356
C11日期和時間函數359
C12序列函數362
C13全局函數365
C14空值和Null值處理函數366
C15特殊函數366
作者介紹
王國平,大數據分析師,具體工作經歷如下:2011-2014 上海大智慧股份有限公司數據研究員。
2014-2016 中國電信上海分公司大數據分析師2016至今上海博轅信息技術服務有限公司數據分析師。