大數據導論(第2版)(微課版)
內容描述
這是一個大數據爆發的時代。面對信息的激流、多元化數據的涌現,大數據已經為個人生活、企業經營,甚至國家與社會的發展都帶來了機遇和挑戰,大數據已經成為IT信息產業中**潛力的藍海。
“大數據導論”是一門理論性和實踐性都很強的課程。本書針對數據科學與大數據技術、人工智能、信息管理、經濟管理和其他相關專業學生的發展需求,系統、全面地介紹了關於大數據技術與應用的基本知識和技能,詳細介紹了大數據與大數據時代、大數據思維變革、大數據可視化、大數據的商業規則、大數據促進醫療與健康、大數據激發創造力、大數據預測分析、大數據與人工智能、大數據存儲技術、大數據處理技術、大數據與雲計算、大數據安全與法律、數據科學與數據科學家以及大數據的未來等內容,具有較強的系統性、可讀性和實用性。
本書為高等院校“大數據導論”“大數據基礎”“大數據概論”等課程全新設計編寫,具有豐富的實踐特色,可供有一定實踐經驗的軟件開發人員、管理人員參考,也可作為繼續教育的教材。
目錄大綱
目錄
第1章大數據與大數據時代1
1.1什麽是大數據2
1.1.1天文學——信息爆炸的起源3
1.1.2大數據的定義6
1.1.3用3V描述大數據特徵7
1.1.4廣義的大數據9
1.2大數據思維10
1.3大數據的結構類型10
1.4大數據的發展11
1.4.1硬件性價比提高與軟件技術進步11
1.4.2雲計算的普及12
1.4.3大數據作為BI的進化形式13
1.4.4從交易數據分析到交互數據分析13
【作業】14
【實驗與思考】瞭解大數據及其在線支持17第2章大數據思維變革20
2.1轉變之一: 樣本=總體22
2.1.1小數據時代的隨機採樣22
2.1.2大數據與喬布斯的癌症治療25
2.1.3全數據模式: 樣本=總體26
2.2轉變之二: 接受數據的混雜性27
2.2.1允許不精確27
2.2.2大數據簡單算法與小數據復雜算法29
2.2.3紛繁的數據越多越好30
2.2.4混雜性是標準途徑31
2.2.55%的數字數據與95%的非結構化數據32
2.3轉變之三: 數據的相關關系33
2.3.1關聯物,預測的關鍵33
2.3.2“是什麽”,而不是“為什麽”35
2.3.3通過因果關系瞭解世界36
2.3.4通過相關關系瞭解世界38
【作業】39
【實驗與思考】深入理解大數據的三個思維變革41第3章大數據可視化44
3.1數據與可視化46
3.1.1數據的可變性47
3.1.2數據的不確定性48
3.1.3數據所依存的背景信息49
3.1.4打造最好的可視化效果50
3.2數據與圖形50
3.2.1數據與走勢52
3.2.2視覺信息的科學解釋53
3.2.3圖片和分享的力量54
3.3實時可視化54
3.4數據可視化的運用56
【作業】57
【實驗與思考】繪制南丁格爾極區圖59第4章大數據的商業規則62
4.1大數據的跨界年度63
4.2谷歌的大數據行動65
4.3亞馬遜的大數據行動66
4.4將信息變成競爭優勢68
4.4.1數據價格下降而需求上升69
4.4.2大數據應用程序興起69
4.4.3實時響應大數據用戶的要求70
4.4.4企業構建大數據戰略71
4.5大數據營銷71
4.5.1像媒體公司一樣思考72
4.5.2面對新的機遇與挑戰72
4.5.3自動化營銷73
4.5.4創建高容量和高價值內容74
4.5.5內容營銷75
4.5.6內容創作與眾包75
4.5.7用投資回報率評價營銷效果76
【作業】77
【實驗與思考】大數據營銷的優勢與核心內涵79第5章大數據促進醫療與健康81
5.1大數據與循證醫學83
5.2大數據帶來的醫療新突破85
5.2.1量化自我,關註個人健康85
5.2.2可穿戴的個人健康設備86
5.2.3大數據時代的醫療信息88
5.2.4CellMiner,對抗癌症的新工具89
5.3醫療信息數字化90
5.4搜索: 超級大數據的最佳夥伴92
5.5數據決策的崛起94
5.5.1數據輔助診斷94
5.5.2你考慮過……了嗎94
5.5.3大數據分析使數據決策崛起96
【作業】96
【實驗與思考】熟悉大數據在醫療健康領域的應用98第6章大數據激發創造力100
6.1大數據幫助改善設計102
6.1.1少而精是設計的核心102
6.1.2與玩家共同設計游戲103
6.1.3以人為本的汽車設計理念104
6.1.4尋找最佳音響效果106
6.1.5建築,數據取代直覺107
6.2大數據操作迴路107
6.2.1信號與噪聲108
6.2.2大數據反饋迴路108
6.2.3最小數據規模109
6.2.4大數據應用程序優勢與作用109
6.3情感分析110
6.3.1數據情感和情感數據110
6.3.2焦慮指數與標普500指數114
6.3.3驗證情感和被驗證的情感115
6.3.4情緒指標影響金融市場116
【作業】118
【實驗與思考】大數據如何激發創造力120第7章大數據預測分析122
7.1什麽是預測分析126
7.1.1預測分析的作用126
7.1.2數據具有內在預測性128
7.1.3定量分析與定性分析129
7.2統計分析129
7.2.1A/B測試129
7.2.2相關性分析131
7.2.3回歸性分析132
7.3數據挖掘132
7.4大數據分析生命周期133
7.4.1商業案例評估134
7.4.2數據標識135
7.4.3數據獲取與過濾135
7.4.4數據提取135
7.4.5數據驗證與清理137
7.4.6數據聚合與表示137
7.4.7數據分析138
7.4.8數據可視化139
7.4.9分析結果的使用139
【作業】140
【實驗與思考】大數據準備度自我評分表142第8章大數據與人工智能146
8.1人工智能概述148
8.2機器學習基礎150
8.2.1什麽是機器學習150
8.2.2基本結構152
8.2.3研究領域153
8.3機器學習分類153
8.3.1基於學習策略分類154
8.3.2基於知識表示形式分類155
8.3.3按應用領域分類155
8.3.4按學習形式分類156
8.4神經網絡158
8.5語義分析160
8.5.1自然語言處理160
8.5.2文本分析161
8.5.3語義檢索162
8.6視覺分析163
8.6.1熱點圖163
8.6.2時間序列圖164
8.6.3網絡圖164
8.6.4空間數據制圖166
【作業】166
【實驗與思考】瞭解大數據與人工智能分析168第9章大數據存儲技術172
9.1分佈式處理173
9.1.1分佈式系統174
9.1.2分佈式文件系統175
9.1.3並行與分佈式數據處理175
9.1.4分佈式存儲176
9.2大數據存儲的概念177
9.2.1存儲虛擬化177
9.2.2集群177
9.2.3分片與復制178
9.2.4CAP定理181
9.2.5BASE設計原理183
9.3NoSQL數據庫185
9.3.1主要特徵186
9.3.2鍵值存儲188
9.3.3文檔存儲189
9.3.4列簇存儲190
9.3.5圖存儲191
9.3.6NoSQL與RDBMS的主要區別192
9.4NewSQL數據庫194
9.5內存存儲技術195
【作業】196
【實驗與思考】熟悉大數據存儲技術200第10章大數據處理技術203
10.1開源技術商業支援205
10.2大數據技術架構206
10.3Hadoop數據處理基礎207
10.3.1Hadoop的由來208
10.3.2Hadoop的優勢209
10.3.3Hadoop的發行版本209
10.3.4Hadoop與NoSQL211
10.4大數據處理模式213
10.4.1處理的特點與工作量213
10.4.2SCV原則214
10.4.3批處理模式215
10.4.4實時處理模式221
【作業】224
【實驗與思考】熟悉大數據技術架構與處理226第11章大數據與雲計算229
11.1什麽是雲計算230
11.1.1雲計算定義230
11.1.2雲基礎設施231
11.2計算虛擬化232
11.3網絡虛擬化233
11.3.1網卡虛擬化233
11.3.2虛擬交換機234
11.3.3接入層虛擬化235
11.3.4覆蓋網絡虛擬化235
11.3.5軟件定義網絡(Software Defined Network,SDN)235
11.4雲計算服務形式236
11.5大數據與雲計算237
11.5.1雲計算與大數據相輔相成237
11.5.2對大數據處理的意義238
11.5.3數據即服務238
11.6雲的挑戰239
【作業】240
【實驗與思考】深入理解雲計算與大數據的相輔相成242第12章大數據安全與法律245
12.1消費者的隱私權249
12.2大數據的安全問題251
12.2.1採集匯聚安全252
12.2.2存儲處理安全252
12.2.3共享使用安全253
12.3大數據的管理維度254
12.4大數據的安全體系255
12.4.1大數據安全技術體系255
12.4.2大數據安全治理256
12.4.3大數據安全測評256
12.4.4大數據安全運維257
12.4.5以數據為中心的安全要素257
12.4.6主動防禦協同體系258
12.4.7協同安全防護流程259
12.5大數據倫理與法規259
12.5.1大數據的倫理問題259
12.5.2大數據的倫理規則261
12.5.3大數據安全法規進展262
【作業】264
【實驗與思考】熟悉大數據安全定義與法規266第13章數據科學與數據科學家268
13.1計算思維270
13.1.1計算思維的概念270
13.1.2計算思維的作用271
13.1.3計算思維的特點272
13.2數據工程師的社會責任274
13.2.1職業化和道德責任274
13.2.2ACM職業道德責任275
13.2.3軟件工程師道德基礎276
13.3IEEE/ACM《計算學科教學計劃》的相關要求276
13.4數據科學與職業技能277
13.4.1數據科學的重要技能278
13.4.2重要的數據科學技能279
13.4.3技能因職業角色而異279
13.5數據科學家281
13.5.1大數據生態系統關鍵角色282
13.5.2數據科學家所需的技能283
13.5.3數據科學家所需的素質285
13.5.4數據科學家的學習內容287
【作業】289
【實驗與思考】瞭解數據科學,熟悉數據科學家291第14章大數據的未來294
14.1連接開放數據296
14.1.1LOD運動296
14.1.2對政府公開的影響297
14.1.3利用開放數據的創業型公司299
14.2大數據資產的崛起299
14.2.1數據市場的興起299
14.2.2不同的商業模式300
14.2.3將原創數據變為增值數據300
14.2.4大數據催生新的應用程序301
14.2.5在大數據“空白”中提取最大價值302
14.3大數據的發展趨勢302
14.4大數據技術展望304
14.4.1數據管理仍然很難304
14.4.2數據孤島繼續激增305
14.4.3媒體分析的突破305
14.4.4技術發展帶來技能轉變305
14.4.5“快速數據”和“可操作數據”306
14.4.6預測分析將數據轉化為預測306
【作業】307
【課程學習與實驗總結】309附錄作業參考答案314
參考文獻317
第1章大數據與大數據時代1
1.1什麽是大數據2
1.1.1天文學——信息爆炸的起源3
1.1.2大數據的定義6
1.1.3用3V描述大數據特徵7
1.1.4廣義的大數據9
1.2大數據變革思維9
1.3大數據的結構類型10
1.4大數據的發展11
1.4.1硬件性價比提高與軟件技術進步11
1.4.2雲計算的普及12
1.4.3大數據作為BI的進化形式12
1.4.4從交易數據分析到交互數據分析13第2章大數據的可視化19
2.1數據與可視化21
2.1.1數據的可變性22
2.1.2數據的不確定性23
2.1.3數據所依存的背景信息24
2.1.4打造最好的可視化效果25
2.2數據與圖形25
2.2.1數據與走勢26
2.2.2視覺信息的科學解釋28
2.2.3圖片和分享的力量29
2.3公共數據集30
2.4實時可視化31
2.5挑戰圖像的多變性32
2.6數據可視化的運用332.6.1可視化對認知的幫助34
2.6.27個數據類型35
2.6.37個基本任務36
2.6.4數據可視化的挑戰38第3章大數據的商業規則45
3.1大數據的跨界年度46
3.2谷歌的大數據行動47
3.3亞馬遜的大數據行動49
3.4將信息變成一種競爭優勢50
3.4.1數據價格下降,數據需求上升51
3.4.2大數據應用程序的興起52
3.4.3實時響應,大數據用戶的新要求53
3.4.4企業構建大數據戰略53
3.5大數據營銷54
3.5.1像媒體公司一樣思考54
3.5.2營銷面對新的機遇與挑戰55
3.5.3自動化營銷56
3.5.4為營銷創建高容量和高價值的內容57
3.5.5內容營銷57
3.5.6內容創作與眾包58
3.5.7用投資回報率評價營銷效果59第4章大數據時代的思維變革65
4.1大數據時代的大挑戰67
4.2轉變之一: 樣本=總體68
4.2.1小數據時代的隨機採樣68
4.2.2大數據與喬布斯的癌症治療71
4.2.3全數據模式: 樣本=總體72
4.3轉變之二: 接受數據的混雜性74
4.3.1允許不精確74
4.3.2大數據的簡單算法與小數據的復雜算法76
4.3.3紛繁的數據越多越好77
4.3.4混雜性是標準途徑78
4.3.5新的數據庫設計79
4.3.65%的數字數據與95%的非結構化數據81
4.4轉變之三: 數據的相關關系81
4.4.1關聯物,預測的關鍵81
4.4.2“是什麽”,而不是“為什麽”84
4.4.3通過因果關系瞭解世界84
4.4.4通過相關關系瞭解世界86第5章大數據促進醫療與健康93
5.1大數據與循證醫學95
5.2大數據帶來的醫療新突破96
5.2.1量化自我,關註個人健康97
5.2.2可穿戴的個人健康設備98
5.2.3大數據時代的醫療信息99
5.2.4CellMiner——對抗癌症的新工具100
5.3醫療信息數字化102
5.4搜索: 超級大數據的最佳夥伴104
5.5數據決策的成功崛起105
5.5.1數據輔助診斷106
5.5.2你考慮過……了嗎106
5.5.3大數據分析使數據決策崛起107第6章大數據激發創造力112
6.1大數據幫助改善設計114
6.1.1少而精是設計的核心115
6.1.2與玩家共同設計游戲116
6.1.3以人為本的汽車設計理念116
6.1.4尋找最佳音響效果118
6.1.5建築,數據取代直覺119
6.2大數據操作迴路119
6.2.1信號與噪聲120
6.2.2大數據反饋迴路120
6.2.3最小數據規模121
6.2.4大數據應用程序的優勢與作用121
6.3大數據資產的崛起122
6.3.1大數據催生嶄新的應用程序122
6.3.2尋找大數據“空白”,提取最大價值122第7章大數據預測分析126
7.1什麽是預測分析130
7.1.1預測分析的作用130
7.1.2行業應用舉例131
7.2數據情感和情感數據132
7.2.1從博客觀察集體情感132
7.2.2預測分析博客中的情緒133
7.2.3影響情緒的重要因素——金錢135
7.3數據具有內在預測性136
7.4情感的因果關系137
7.4.1焦慮指數與標普500指數137
7.4.2驗證情感和被驗證的情感138
7.4.3情緒指標影響金融市場139第8章大數據促進學習149
8.1打造網絡教育體系152
8.1.1典型的網絡教育形式152
8.1.2未來的教育: 線上線下結合153
8.1.3跟蹤教學效果154
8.1.4形成學習能力155
8.2機器學習及其研究155
8.2.1什麽是人工智能156
8.2.2什麽是機器學習157
8.2.3基本結構159
8.2.4研究領域160
8.3機器學習的分類160
8.3.1基於學習策略的分類160
8.3.2基於所獲取知識的表示形式分類161
8.3.3按應用領域分類162
8.3.4按學習形式分類162第9章大數據在雲端171
9.1雲端大數據173
9.1.1什麽是雲計算173
9.1.2雲計算的服務形式174
9.1.3雲計算與大數據175
9.1.4雲基礎設施176
9.2計算虛擬化176
9.3大數據存儲177
9.3.1傳統存儲系統時代178
9.3.2大數據時代的新挑戰178
9.3.3分佈式存儲180
9.3.4雲存儲180
9.3.5大數據存儲的其他需求181
9.4網絡虛擬化182
9.4.1網卡虛擬化182
9.4.2虛擬交換機183
9.4.3接入層的虛擬化184
9.4.4覆蓋網絡虛擬化184
9.4.5軟件定義的網絡184
9.4.6對大數據處理的意義185
9.5數據即服務185
9.5.1數據應用185
9.5.2數據清理185
9.5.3數據保密186
9.6雲的挑戰186第10章支撐大數據的技術193
10.1開源技術的商業支援195
10.2大數據的技術架構196
10.3什麽是Hadoop197
10.3.1什麽是分佈式系統197
10.3.2Hadoop的由來199
10.3.3Hadoop的優勢200
10.3.4Hadoop的發行版本200
10.4大數據的數據處理基礎202
10.4.1Hadoop與NoSQL203
10.4.2NoSQL與RDBMS的主要區別204
10.4.3NewSQL206
10.5相關的大數據技術207
10.5.1神經網絡207
10.5.2自然語言處理208
10.5.3語義檢索209
10.5.4鏈接挖掘210
10.5.5A/B測試210第11章數據科學與數據科學家217
11.1什麽是數據科學218
11.2數據分析生命周期模型219
11.3數據科學家221
11.3.1大數據生態系統中的關鍵角色222
11.3.2數據科學家所需的技能223
11.3.3數據科學家所需的素質226
11.3.4數據科學家的學習內容227
11.4數據科學的重要技能229
11.4.1數據科學技能和熟練程度230
11.4.2重要數據科學技能230
11.4.3因職業角色而異的十大技能231
11.4.4職業角色的重要技能233第12章大數據的未來240
12.1消費者的隱私權242
12.2連接開放數據244
12.2.1LOD運動244
12.2.2對政府公開的影響245
12.2.3利用開放數據的創業型公司247
12.3數據市場的興起247
12.3.1Factual248
12.3.2Windows Azure Marketplace248
12.3.3Infochimps248
12.3.4Public Data Sets On AWS249
12.3.5不同的商業模式249
12.4將原創數據變為增值數據250
12.5大數據未來展望251
12.5.1大數據存儲和管理252
12.5.2傳統IT系統到大數據系統的過渡252
12.5.3大數據分析253
12.5.4大數據安全254
12.5.5數據科學254
參考文獻266