大數據導論(通識課版)
內容描述
大數據已深深滲透於人們工作和生活的方方面面。然而,大數據從來都不是以“技術”為其**底色,基於數據科學的創新應用,同樣需要其他領域深度融合。本書闡述了培養具有大數據素養的綜合型人才所需要的相關知識儲備。本書不僅介紹大數據處理流程中的技術圖譜,而且更側重地討論了與數據科學相關的歷史、哲學及倫理學,以便於讀者拓展跨領域的數據思維。為了增強圖書的可讀性,圖書描述形式力圖新穎,內容深入淺出、文筆流暢、圖文並茂,大幅降低非電腦類相關專業讀者的學習曲線。 作為通識類課程教材,本書服務於具有數據素養的綜合型人才的培養。因此,本書的讀者對象是具有文科或理工科背景且對大數據行業感興趣的讀者。
目錄大綱
目錄
第1章大數據之大歷史1
1.1大歷史的概述1
1.2遠古時代的數據思維2
1.2.1數字的產生2
1.2.2人類的數字感3
1.2.3數字感給我們的歷史啟迪6
1.2.4計數係統的起源與發展7
1.2.5數字的誕生10
1.2.6數字與數據的不同11
1.2.7語言與文字12
1.2.8文言文的“無奈”精簡13
1.2.9古代的“數據中心”——圖書館16
1.3近代數據思維的崛起18
1.3.1統計學的誕生18
1.3.2“政治算術”的內涵19
1.3.3統計分析科學的誕生20
1.3.4概率論的動機21
1.3.5社會物理學背後的玄機22
1.3.6美國式的人口普查——大數據催生新技術24
1.4數據管理的發展與演進25
1.4.1電子數字存儲介質的演化26
1.4.2簡陋的“有文無庫”時代27
1.4.3“窮”則思變之網狀數據庫28
1.4.4濃墨重彩之關係數據庫30
1.4.5突破數據共享的封鎖線31
1.4.6向非結構化進發的大趨勢33
1.5大數據的誕生35
1.5.1大數據術語的歷史淵源35
1.5.2在混沌和秩序轉化中螺旋上升37
1.6本章小結38
思考與練習39
本章參考文獻40
第2章大數據內涵與數據文化42
2.1從數據、信息,到知識、智慧的飛躍42
2.2大數據的多版本定義46
2.3大數據的經濟地位48
2.3.1新時代的生產資料48
2.3.2數據與第二經濟49
2.4各方位的重視50
2.4.1來自學術界的青睞51
2.4.2來自政府層面的認可52
2.4.3來自工商業的追捧53
2.5大數據內涵——豈止於大55
2.5.1大數據之“大”有不同56
2.5.2大數據之唯“快”不破59
2.5.3大數據之五彩繽“紛”64
2.5.4大數據之價“值”無限66
2.5.5包括但不限於4V68
2.6數據文化與未來之路70
2.6.1三人成虎——數據真的越大越好嗎70
2.6.2數據文化的養成71
2.7本章小結72
思考與練習73
本章參考文獻73
第3章大數據創新與實踐75
3.1洞察帶來數據價值75
3.2安德森的學術觀點78
3.3數據、模型與理論的關係79
3.4谷歌是如何預測流感的82
3.4.1流感治療網絡化82
3.4.2無意間生產的大數據84
3.4.3谷歌工程師的傑作——流感預測趨勢84
3.4.4谷歌公司的流感預測為何成功? 86
3.4.5案例小結87
3.5全數據是如何為葉詩文抱不平88
3.5.1舍恩伯格的三個學術觀點88
3.5.2葉詩文事件的新聞背景88
3.5.3什麼是性能分析法89
3.5.4質疑的合理性在哪裡90
3.5.5“大數據=全數據”的威力——為葉詩文抱不平92
3.5.6案例小結94
3.6教育大數據是如何干預學生成長的95
3.6.1飯卡數據的二次使用95
3.6.2一卡通數據的另類解讀97
3.6.3案例小結97
3.7更多大數據應用案例98
3.7.1基於位置服務98
3.7.2商品和服務的個性化推薦99
3.7.3客戶叛離分析99
3.7.4服務軟件改善100
3.8數據價值如何得以變現102
3.8.1數據變現的途徑102
3.8.2計算廣告是如何實現數據變現的104
3.8.3信用——大數據時代的另類資產107
3.9利用大數據的三個層次109
3.9.1對過去/現狀的把握109
3.9.2對未來的預測110
3.9.3對行動的優化110
3.10本章小結112
思考與練習112
本章參考文獻113
第4章數據科學的認知方法論114
4.1大、小數據的“質”不同114
4.2大數據的數理哲學基礎——同構關係116
4.2.1阿喀琉斯追烏龜116
4.2.2大數據的同構映射118
4.3大數據的認知論120
4.3.1科學始於觀察——邏輯證實主義120
4.3.2證實主義的困頓——來自波普爾的批判123
4.3.3科學始於問題——波普爾的貢獻124
4.3.4科學始於數據——數據科學帶來轉機125
4.4大數據科學研究的第四範式130
4.4.1庫恩與範式130
4.4.2科學研究的前三個範式132
4.4.3數據科學的第四範式135
4.5科學哲學對大數據時代的啟發136
4.5.1多範式並存137
4.5.2科學綱領內允許有波動139
4.6本章小結139
思考與練習140
本章參考文獻140
第5章大數據反思與數據倫理142
5.1來自大數據的反思142
5.1.1園中有金不在金——大數據的價值到底在哪裡142
5.1.2蓋洛普抽樣的成功——大小之爭,大數據一定勝過小抽樣嗎144
5.1.3點球成金——數據流與球探誰更重要145
5.1.4你若安好,便是晴天——大數據很好,但小數據也很美146
5.1.5預測即乾預——谷歌流感預測是如何失效的151
5.1.6撲朔離迷的相關性—— 誤把相關當因果154
5.2大數據算法是中性的嗎157
5.2.1大數據倫理157
5.2.2大數據算法的責任158
5.2.3人類的文化偏見存於大數據之中158
5.2.4大數據算法的生物學特性表現159
5.2.5大數據算法歧視的心理學特質160
5.2.6可能的應對策略162
5.3大數據的隱私之痛164
5.3.1個人隱身,無處可藏164
5.3.2優步的“榮耀之旅”165
5.3.3有關數據隱私的立法166
5.3.4隱私與便利的權衡167
5.4本章小結169
思考與練習170
本章參考文獻171
第6章大數據處理的技術圖譜173
6.1大數據價值的技術實現173
6.2大數據技術的幾個重要概念174
6.2.1非結構化(NoSQL)174
6.2.2面向列的存儲176
6.2.3CAP理論178
6.2.4MapReduce範式180
6.3大數據分析關鍵架構層概要182
6.3.1文件系統層182
6.3.2數據存儲層185
6.3.3資源管理層187
6.3.4計算協調層189
6.3.5計算框架層190
6.3.6數據分析層193
6.3.7數據集成層194
6.3.8操作框架層196
6.4本章小結198
6.5思考與練習199
本章參考文獻199
作者介紹
張玉宏,2012年博士畢業於電子科技大學,大數據分析師(高級),美國西北大學訪問學者、IUPUI高級訪問學者,現執教於河南工業大學,先後出版《深度學習之美》《品味大數據》等科技暢銷書7部。