人工智能與大數據技術導論
內容描述
本書全面講述人工智能與大數據涉及的技術,學完本書後,讀者將對人工智能技術有全面的理解,並能掌握AI整體知識架構。本書共分16章,內容包括人工智能概述、AI產業、數據、機器學xi概述、模型、機器學xi算法、深度學xi、TensorFlow、神經網絡、知識圖譜、數據挖掘,以及銀行業、醫療、、工農業等行業人工智能應用情況。附錄給出了極有參考價值的大數據與人工智能產業參考資料。本書適合人工智能與大數據技術初學者、人工智能行業準從業人員、AI投資領域的技術閱讀,也適合作為高等院校和培訓學校人工智能相關專業師生的教學參考書。
目錄大綱
第1章人工智能概述1
1.1 AI是什麼1
1.1.1火熱的AI 2
1.1.2 AI的驅動因素3
1.2 AI技術的成熟度4
1.2.1視覺識別4
1.2.2自然語言理解5
1.2.3機器人7
1.2.4自動駕駛8
1.2.5機器學xi 9
1.2.6遊戲10
1.3美國AI巨頭分析11
1.4 *AI現狀16
1.5 AI與雲計算和大數據的關係17
1.6 AI技術路線17
1.7 AI國jia戰略18
1.8 AI的歷史發展19
第2章AI產業24
2.1基礎層25
2.1.1芯片產業25
2.1.2 GPU 27
2.1.3 FPGA 28
2.1.4 ASIC 28
2.1.5 TPU 29
2.1.6 *的芯片31
2.1.7芯片產業小結32
2.1.8傳感器33
2.1.9傳感器小結35
2.2技術層37
2.2.1機器學xi 37
2.2.2語音識別與自然語言處理39
2.2.3計算機視覺42
2.3應用層44
2.3.1安防44
2.3.2金融45
2.3.3製造業47
2.3.4智能家居48
2.3.5醫療48
2.3.6自動駕駛50
2.4 AI產業發展趨勢分析55
第3章數據58
3.1什麼是大數據59
3.1.1大數據的特徵59
3.1.2大數據的誤區60
3.1.3大數據交易難點60
3.1.4大數據的來源62
3.1.5數據關聯63
3.1.6大數據生產鏈64
3.1.7大數據怎麼用64
3.2 *大數據現狀65
3.2.1政策持續完善66
3.2.2技術和應用逐步落地66
3.2.3數據產生價值難67
3.2.4問題與機遇並存67
3.3大數據的計算模式68
3.3.1流式計算的應用場景69
3.3.2流式大數據的特徵70
3.3.3流式計算關鍵技術72
3.4大數據技術74
3.4.1數據技術的演進75
3.4.2分佈式計算系統概述76
3.4.3 Hadoop 77
3.4.4 Spark 80
3.4.5 Storm系統82
3.4.6 Kafka系統84
3.4.7各類技術平台比較86
3.5數據平台88
3.5.1數據存儲和計算89
3.5.2數據質量92
3.5.3數據管理97
3.5.4數據目錄99
3.5.5數據安全管控100
3.5.6數據準備102
3.5. 7數據整合107
3.5.8數據服務107
3.5.9數據開發107
3.5.10數據平台總結108
3.6大數據的商用途徑109
3.6.1數據化109
3.6.2算法化109
3.6.3應用化(產品化) 110
3.6.4生態化111
3.7大數據產業112
3.7.1大數據產業界定112
3.7. 2大數據技術發展的推動力114
3.7.3重點行業的大數據應用117
3.7.4大數據應用發展趨勢123
3.7.5大數據的產業鏈構成分析123
3.8政府大數據案例分析125
3.8.1政府有哪些數據資源126
3.8.2政府大數據應用案例126
3.8.3政府大數據面臨的挑戰130
3.8.4政府大數據應用啟示131
第4章機器學xi概述133
4.1走進機器學xi 133
4.1. 1什麼是機器學xi 133
4.1.2機器學xi的感性認識133
4.1.3機器學xi的本質134
4.1.4對機器學xi的全面認識135
4.1.5機器學xi、深度學xi與人工智能136
4.1.6機器學xi、數據挖掘與數據分析137
4.2機器學xi的基本概念139
4.2.1數據集、特徵和標籤139
4.2.2監督式學xi和非監督式學xi 140
4.2.3強化學xi和遷移學xi 140
4.2.4特徵數據類型141
4.2.5訓練集、驗證集和測試集141
4.2.6機器學xi的任務流程142
4.3數據預處理142
4.3.1探索性分析143
4.3.2數據清洗143
4.3.3特徵工程145
第5章模型146
5.1什麼是模型146
5.2誤差和MSE 148
5.3模型的訓練149
5.3.1模型與算法的區別149
5.3.2迭代法150
5.4梯度下降法151
5.4 .1步長152
5.4.2優化步長152
5.4.3三類梯度下降法153
5.4.4梯度下降的詳細算法154
5.5模型的擬合效果155
5.5.1欠擬合與過擬合155
5.5.2過擬合的處理方法156
5.6模型的評估與改進157
5.6.1機器學xi模型的評估157
5.6.2機器學xi算法與人類比較158
5.6 .3改進策略159
5.7機器學xi的實現框架160
5.7.1 Python 160
5.7.2 scikit-learn 161
5.7.3 Spark MLlib 163
第6章機器學xi算法164
6.1算法概述164
6.1.1線性回歸165
6.1 .2邏輯回歸165
6.1.3線性判別分析166
6.1.4分類與回歸樹分析167
6.1.5樸素貝葉斯167
6.1.6 K近鄰算法168
6.1.7學xi矢量量化168
6.1.8支持向量機169
6.1.9 Bagging和隨機森林170
6.1.10 Boosting和AdaBoost 170
6.2支持向量機算法171
6.3邏輯回歸算法173
6.4 KNN算法175
6.4.1超參數k 175
6.4.2 KNN實例:波士頓房價預測177
6.4.3算法評價179
6.5決策樹算法179
6.6集成算法182
6.6.1集成算法簡述182
6.6 .2集成算法之Bagging 183
6.6.3集成算法之Boosting 184
6.7聚類算法185
6.7.1 K均值聚類185
6.7.2均值漂移聚類186
6.7.3基於密度的聚類方法187
6.7.4用高斯混合模型的期望聚類188
6.7.5凝聚層次聚類189
6.7.6圖團體檢測190
6.8機器學xi算法總結192
第7章深度學xi 193
7.1走進深度學xi 193
7.1.1深度學xi為何崛起194
7.1.2從邏輯回歸到淺層神經網絡194
7.1.3深度神經網絡196
7.1.4正向傳播197
7.1.5激活函數197
7.2神經網絡的訓練197
7.2.1神經網絡的參數197
7.2.2向量化198
7.2.3價值函數198
7.2.4梯度下降和反向傳播198
7.3神經網絡的優化和改進199
7.3.1神經網絡的優化策略199
7.3.2正則化方法201
7.4卷積神經網絡203
7.4.1卷積運算203
7.4.2卷積層204
7.4.3 CNN實例205
7.5深度學xi的優勢210
7.6深度學xi的實現框架211
第8章TensorFlow 213
8.1 TensorFlow工具包213
8.1.1 tf.estimator API 214
8.1.2 Pandas速成214
8.1.3必要的Python知識216
8.2 *個TensorFlow程序219
8.2.1裝載數據220
8.2.2探索數據221
8.2.3訓練模型221
8.2.4評估模型223
8.2.5優化模型225
8.2.6合成特徵231
8.2.7離群值處理234
8.3過擬合處理237
8.3.1訓練集和測試集238
8.3.2驗證集239
8.3.3過擬合實例240
8.4特徵工程249
8.4.1數值型數據249
8.4.2字符串數據和one-hot編碼250
8.4.3枚舉數據(分類數據) 250
8.4.4好特徵250
8.4.5數據清洗251
8.4.6分箱(分桶)技術252
8.4.7特徵工程實例253
第9章TensorFlow*知識263
9.1特徵交叉263
9.1.1什麼是特徵交叉263
9.1.2 FTRL實踐265
9.1.3分桶(分箱)代碼實例268
9.1.4特徵交叉代碼實例271
9.2 L2正則化274
9.3邏輯回歸276
9.4分類279
9.4.1評價指標—準確率279
9.4.2評價指標—精確率281
9.4.3指標—召回率281
9.4.4評價指標之綜合考慮282
9.4.5 ROC曲線284
9.4.6預測偏差285
9.4.7分類代碼實例286
9.5 L1正則化298
第10章神經網絡308
10.1什麼是神經網絡308
10.1.1隱藏層308
10.1.2激活函數309
10.1.3 ReLU 310
10.1.4實例代碼311
10.2訓練神經網絡320
10.2.1正向傳播算法320
10.2.2反向傳播算法322
10.2.3標準化特徵值324
10.2.4丟棄正則化324
10.2.5代碼實例325
10.3多類別神經網絡340
10.3.1一對多方法340
10.3.2 Softmax 341
10.3.3代碼實例343
10.4嵌套357
10.4.1協同過濾358
10.4.2稀疏數據359
10.4.3獲取嵌套360
10.4.4代碼實例360
第11章知識圖譜372
11.1什麼是知識圖譜372
11.1.1知識圖譜的定義373
11.1.2知識圖譜的架構373
11.1.3開放知識圖譜374
11.1.4知識圖譜在行業數據分析中的應用376
11.2知識圖譜構建的關鍵技術377
11.2.1知識提取378
11.2.2語義類抽取379
11.2.3屬性和屬性值抽取381
11.2.4關係抽取382
11.2.5知識表示382
11.2.6知識融合383
11.3知識計算及應用384
11.4企業知識圖譜建設384
第12章數據挖掘387
12.1什麼是數據挖掘387
12.1.1數據挖掘技術產生的背景387
12.1.2數據挖掘與數據分析的區別387
12.2數據挖掘技術(方法) 388
12.2.1分類388
12.2.2聚類389
12.2.3回歸分析389
12.2.4關聯規則389
12.2.5神經網絡方法390
12.2 .6 Web數據挖掘390
12.2.7特徵分析390
12.2.8偏差分析391
12.3大數據思維391
12.3.1信度與效度思維391
12.3.2分類思維391
12.3.3漏斗思維392
12.3.4邏輯樹思維392
12.3.5時間序列思維393
12.3.6指數化思維393
12.3.7循環/閉環思維394
第13章銀行業大數據和人工智能395
13.1四大行的進展396
13.1.1建設銀行396
13.1. 2工商銀行396
13.1.3農業銀行398
13.1.4中國銀行398
13.2其他銀行399
13.2.1廣發銀行399
13.2.2江蘇銀行400
13.3金融宏觀大數據分析404
13.4小結407
13.4.1大數據給銀行帶來的機遇與挑戰407
13.4.2銀行大數據體系建設的思考409
第14章醫療大數據和人工智能412
14.1醫療大數據的特點412
14.2醫療大數據處理模型413
14.3醫療大數據的AI應用416
14.3.1智能輔助診療416
14.3.2影像數據分析與影像智能診斷416
14.3.3合理用藥416
14.3.4遠程監控417
14.3.5精準醫療417
14.3.6成本與療效分析417
14.3.7績效管理417
14.3.8醫院控費417
14.3.9醫療質量分析418
14.4人工智能的醫療應用場景418
14.5人工智能要當“醫生” 420
14.6醫院大數據421
14.7機器學xi在醫療行業中的應用實例分析422
第15章*大數據和人工智能424
15.1 大數據的特點424
15.2建設流程425
15.3 大數據管理平台426
15.3.1 大數據建模427
15.3.2 大數據匯集428
15.3.3 大數據服務428
15.4 大數據挖掘分析428
15.5 *大數據AI應用429
15.6小結430
第16章工農業大數據和人工智能431
16.1中國製造2025 432
16.2工業大數據433
16.2.1工業大數據面臨三大製約因素433
16.2.2工業大數據應用的四大發展趨勢434
16.2.3發展工業大數據434
16.3 AI製造435
16.4農業大數據435
16.4.1發展現狀435
16.4.2農業大數據目標435
16.4.3農業大數據建設任務436
16.4.4農產品質量安全追溯437
附錄A *人工智能企業名單438
附錄B大數據和人
作者介紹
楊正洪,畢業於美國State University of New York at Stony Brook,在美國矽谷從事AI和大數據相關研發工作十餘年,華中科技大學和中國地質大學客座教授,湖北省2013年海外引進人才,並擁有多項國jia專利。楊正洪參與了大數據和人工智能的國jia標準的製定,在2016年參與了部主導的“信息安全技術:大數據平台安全管理產品安全技術要求”的國jia標準制定。楊正洪是中關村海外智庫顧問和住建部中規院顧問,曾擔任在美上市公司CTO、北京某國企CIO和上海某國企副總裁等職。多年從事人工智能與大數據技術的實踐,出版了《智慧城市》《大數據技術入門》等多本暢銷書。