人工智能技術與大數據
內容描述
本書分為兩個部分,共12章。
第1章到第5章介紹了大數據的本體論、機器學習的基本理論等內容,為具體場景、算法的實踐奠定了基礎。
讀者可以瞭解到,在工程實踐中,對大數據的處理、轉化方式與人類學習知識並將其轉化為實踐的過程是多麽相似。
在對機器學習的介紹中,會對其數學原理、訓練過程做基本的講解,並輔以代碼幫助讀者瞭解真實場景中技術工具的使用。
第6章到第12章提供了多個不同的用例,章節之間彼此獨立,介紹瞭如何用人工智能技術
(自然語言處理、模糊系統、遺傳編程、群體智能、強化學習、網絡安全、認知計算)實現大數據自動化解決方案。
如果讀者對 Java 編程語言、分佈式計算框架、各種機器學習算法有一定的瞭解,
那麽本書可以幫助你建立一個全局觀,從更廣闊的視角來看待人工智能技術在大數據中的應用。
如果讀者對上述知識一無所知,但是對大數據人工智能的技術、業務非常感興趣,那麽可以通過本書獲得從零到一的認知提升。
目錄大綱
第1章大數據與人工智能係統1
1.1結果金字塔2
1.2人腦最擅長什麼2
1.2.1感官輸入2
1.2.2存儲3
1.2.3處理能力3
1. 2.4低能耗3
1.3電子大腦最擅長什麼3
1.3.1速度信息存儲3
1.3.2蠻力處理4
1.4兩全其美4
1.4.1大數據5
1.4. 2從遲鈍機器進化到智能機器6
1.4.3智能7
1.4.4大數據框架8
1.4.5大數據智能應用10
1.5常見問答10
1.6小結12
第2章大數據本體論13
2.1人腦與本體14
2.2信息科學本體論15
2.2.1本體的屬性16
2.2.2本體的優點17
2.2.3本體的組成18
2.2 .4本體在大數據中扮演的角色19
2.2.5本體對齊20
2.2.6本體在大數據中的目標20
2.2.7本體在大數據中的挑戰21
2.2.8資源描述框架——通用數據格式21
2.2.9使用Web本體語言:OWL 26
2.2.10 SPARQL查詢語言28
2.2.11用本體構建智能機器31
2.2.12本體學習33
2.3常見問答36
2.4小結36
第3章從大數據中學習38
3.1監督學習和無監督學習38
3.2 Spark編程模型42
3.3 Spark MLlib庫44
3.3.1轉換器函數44
3.3.2估計器算法45
3.3.3管道45
3.4回歸分析46
3.4.1線性回歸47
3.4.2廣義線性模型50
3.4.3對數機率回歸分類技術50
3.4.4多項式回歸52
3.4.5逐步回歸53
3.4.6嶺回歸53
3.4.7套索回歸54
3.5數據聚類54
3.6 K均值算法55
3.7數據降維58
3. 8奇異值分解59
3.8.1矩陣理論和線性代數概述60
3.8.2奇異值分解的重要性質62
3.8.3 Spark ML實現SVD 63
3.9主成分分析64
3.9.1用SVD實現PCA算法64
3.9.2用Spark ML實現SVD 65
3.10基於內容的推薦系統66
3.11常見問答70
3.12小結71
第4章大數據神經網絡72
4.1神經網絡和人工神經網絡的基礎72
4.2感知器和線性模型73
4.2.1神經網絡的組成符號74
4.2.2簡單感知器模型的數學表示75
4.2.3激活函數77
4.3非線性模型80
4.4前饋神經網絡81
4.5梯度下降和反向傳播82
4.5.1梯度下降偽代碼85
4.5.2反向傳播模型86
4. 6過擬合88
4.7循環神經網絡89
4.7.1 RNN的需求89
4.7.2 RNN的結構89
4.7.3訓練RNN 90
4.8常見問答90
4.9小結92
第5章深度大數據分析93
5.1深度學習基礎知識和構建模塊93
5.1.1基於梯度的學習95
5.1.2反向傳播97
5.1.3非線性98
5.1.4剔除99
5.2構建數據準備管道101
5.3實現神經網絡架構的實用方法107
5.4超參數調優109
5.4.1學習率110
5.4.2訓練迭代的次數111
5.4.3隱藏單元數111
5.4.4時期數112
5.4.5用deeplearning4j試驗超參數112
5.5分佈式計算117
5.6分佈式深度學習119
5.6.1 DL4J和Spark 119
5.6 .2 TensorFlow 122
5.6.3 Keras 122
5.7常見問答123
5.8小結125
第6章自然語言處理126
6.1自然語言處理基礎127
6.2文本預處理128
6.2.1刪除停用詞129
6.2.2詞幹提取130
6.2.3詞形還原132
6.2.4 N-Gram 132
6.3特徵提取133
6.3.1獨熱編碼133
6.3. 2 TF-IDF 134
6.3.3 CountVectorizer 136
6.3.4 Word2Vec 137
6.4應用自然語言處理技術140
6.5實現情感分析145
6.6常見問答147
6.7小結148
第7章模糊系統149
7.1模糊邏輯基礎149
7.1.1模糊集和隸屬函數150
7.1.2明確集的屬性和符號151
7.1.3模糊化153
7.1.4去模糊化156
7.1.5模糊推理156
7.2 ANFIS網絡157
7.2.1自適應網絡157
7.2.2 ANFIS架構和混合學習算法157
7.3模糊C均值聚類160
7.4模糊神經分類器164
7.5常見問答165
7.6小結166
第8章遺傳編程167
8.1遺傳算法的結構169
8. 2 KEEL框架172
8.3 Encog機器學習框架175
8.3.1 Encog開發環境設置175
8.3.2 Encog API結構176
8.4 Weka框架179
8.5用Weka以遺傳算法實現屬性搜索189
8 .6常見問答192
8.7小結192
第9章群體智能193
9.1什麼是群體智能194
9.1.1自組織194
9.1.2主動共識195
9.1.3勞動分工196
9.1.4集體智能係統的優勢196
9.1.5開發SI系統的設計原則197
9.2粒子群優化模型198
9.3蟻群優化模型201
9.4 MASON庫203
9.5 Opt4J庫206
9.6在大數據分析中的應用208
9.7處理動態數據210
9.8多目標優化210
9.9常見問答211
9.10小結212
第10章強化學習213
10.1強化學習算法的概念213
10.2強化學習技術216
10.2.1馬爾可夫決策過程217
10.2.2動態規劃與強化學習218
10.2.3 Q-learning 221
10.2.4 SARSA學習228
10.3深度強化學習230
10.4常見問答231
10.5小結231
第11章網絡安全233
11.1大數據用於維生管線保護233
11.1.1數據收集與分析234
11.1.2異常檢測235
11.1.3糾正和預防措施236
11.1.4概念上的數據流236
11.2理解流處理239
11.2.1流處理語義240
11.2.2 Spark Streaming 241
11.2.3 Kafka 242
11.3網絡安全攻擊類型244
11.3.1網絡釣魚245
11.3.2內網漫遊245
11.3.3注入攻擊245
11.3.4基於AI的防禦246
11.4了解SIEM 247
11.5 Splunk 250
11.5. 1 Splunk Enterprise Security 250
11.5.2 Splunk Light 251
11.6 ArcSight ESM 253
11.7常見問答253
11.8小結254
第12章認知計算256
12.1認知科學256
12.2認知系統259
12.2.1認知系統簡史260
12.2.2認知系統的目標261
12.2.3認知系統的因素262
12.3認知智能在大數據分析中的應用263
12. 4認知智能即服務264
12.4.1基於Watson的IBM認知工具包265
12.4.2基於Watson的認知應用266
12.4.3用Watson進行開發269
12.5常見問答273
12.6小結274
作者介紹
Anand Deshpande
是Datametica Solutions公司的大數據交付主管。
他負責與客戶合作制訂數據策略,並幫助他們的公司成為數據驅動型企業。
他擁有豐富的大數據生態系統技術經驗,經常在各種活動中就數據科學和大數據發表演講,
對數據科學、認知智能以及用於數據管理和分析的算法有著濃厚的興趣。
Manish Kumar
是Datametica Solutions公司的高級技術架構師。
作為一名數據、解決方案和產品架構師,他擁有超過11年的數據管理行業經驗,經常就大數據和數據科學發表演講。
他在構建有效的ETL管道、通過Hadoop實現安全性、實現實時數據分析解決方案,
以及為數據科學問題提供創新和最佳的可能解決方案方面擁有豐富的經驗。