深度學習模型及應用詳解
內容描述
本書作者都是微軟人工智能及研究院的研究人員和應用科學家,具有深厚的機器學習背景,在一線針對產品需求和支持的場景進行了大量的深度學習模型及算法的研究和開發,在模型設計、訓練、評估、部署、推理優化等模型開發全生命周期積累了豐富的經驗。本書面向的讀者是希望學習和運用深度學習模型到具體應用場景的企業工程師、科研院所的學生和科研人員。讀者學習本書的目的是瞭解深度學習模型和算法基礎後,重點應用和實踐並快速部署在自己的工作領域,同時取得落地成果。本書分為4 個部分,共13 章。其中第1 部分(第1~2 章)簡要介紹了深度學習的現狀、概念和實現工具。第2 部分(第3~5 章)以具體的實際應用展示基於深度學習技術進行工程實踐和開發的流程和技巧。第3 部分(第6~12 章)介紹了學術界和工業界最新的高階深度學習模型的實現和應用。第4 部分(第13章)介紹了深度學習領域的一些前沿研究方向並對深度學習的未來發展進行展望。
目錄大綱
第1章
神經網絡發展史/ 1
1.1神經網絡的早期雛形/ 3
1.1.1聯結主義和Hebb學習規則/ 4
1.1.2 Oja學習規則及主分量分析/ 5
1.1.3早期的神經元模型/ 5
1.2現代神經網絡/ 6
1.2.1反向傳播算法/ 6
1.2.2神經網絡的通用函數近似性/ 8
1.2.3深度的必要性/ 9
1.3深度學習發展歷史中的重要神經網絡/ 10
1.3. 1深度神經網絡的興起/ 10
1.3.2自組織特徵映射/ 10
1.3.3霍普菲爾德神經網絡/ 11
1.3.4玻爾茲曼機及受限玻爾茲曼機/ 12
1.3.5深度信念網/ 14
1.3.6其他深度神經網絡/ 15
1.4本章小結/ 15
參考文獻/ 16
第2章
深度學習開源框架/ 17
2.1主流的深度學習開源框架/ 18
2.2簡單神經網絡模型在不同框架上的實現對比/ 29
2.3本章小結/ 44
參考文獻/ 45
第3章
多層感知機在自然語言處理方面的應用/ 46
3.1詞和文本模型的發展歷程/ 47
3.2 Word2Vec模型:基於上下文的分佈式表達/ 49
3.2.1 Skip-Gram算法的訓練流程/ 50
3.2.2 Skip-Gram算法的網絡結構/ 53
3.2.3代價函數/ 54
3.3應用TensorFlow實現Word2Vec模型/ 58
3.3.1定義計算圖:訓練語料庫預處理/ 60
3.3.2模型計算圖的實現/ 63
3.4 Word2Vec模型的局限及改進/ 66
3.5本章小結/ 67
參考文獻/ 68
第4章
卷積神經網絡在圖像分類中的應用/ 69
4.1圖像識別和圖像分類的發展/ 72
4.2 AlexNet / 73
4.2.1網絡模型結構/ 74
4.2.2 AlexNet的具體改進/ 79
4.2.3代價函數/ 83
4.3應用TensorFlow實現AlexNet / 83
4.3.1讀取訓練圖像集/ 83
4.3.2模型計算圖的實現/ 84
4.4本章小結/ 85
參考文獻/ 86
第5章
遞歸神經網絡/ 87
5.1遞歸神經網絡應用背景介紹/ 88
5.2遞歸神經網絡模型介紹/ 89
5.2.1遞歸神經網絡模型結構/ 89
5.2.2雙向遞歸神經網絡/ 90
5.2.3長短期記憶模型/ 91
5.3遞歸神經網絡展望/ 94
5.4本章小結/ 95
參考文獻/ 95
第6章
DeepIntent模型在信息檢索領域的應用/ 96
6.1信息檢索在搜索廣告中的應用發展/ 97
6.2含有註意力機制的RNN模型/ 99
6.2.1網絡模型結構/ 100
6.2.2代價函數/ 104
6.3應用TensorFlow實現DeepIntent模型/ 107
6.3.1定義計算圖/ 107
6.3.2定義代價函數及優化算法/ 114
6.3.3執行計算圖進行訓練/ 118
6.4本章小結/ 119
參考文獻/ 120
第7章
圖像識別及在廣告搜索方面的應用/ 121
7.1視覺搜索/ 122
7.2方法和系統/ 124
7.2.1圖像DNN編碼器/ 124
7.2.2利用Rich-CDSSM降低維度/ 125
7.2.3快速最近鄰搜索系統/ 127
7.2.4精密層/ 127
7.2.5端到端服務系統/ 128
7.3評測/ 129
7.4用於演示的Visual Shopping Assistant應用程序/ 131
7.5相關工作/ 132
7.6本章小結/ 133
第8章
Seq2Seq模型在聊天機器人中的應用/ 134
8.1 Seq2Seq模型應用背景/ 135
8.2 Seq2Seq模型的應用方法/ 136
8.3含有註意力機制的多層Seq2Seq模型/ 137
8.3.1詞嵌入層/ 137
8.3.2可變深度LSTM遞歸層/ 138
8.3.3注意力機制層/ 139
8.3.4投影層/ 139
8.3.5損失函數(loss function)和端到端訓練/ 140
8.4信息導向的自適應序列採樣/ 142
8.5多輪項目推薦/ 143
8.6熵作為信心的度量/ 143
8.6.1直觀的定義和討論/ 143
8.6.2序列後驗估計的不確定性/ 145
8.6.3信息導向的抽樣:最大化預期信息增益的原則/ 145
8.6.4 Seq2Seq模型的3個應用程序/ 146
8.6.5應用程序1:查詢理解和重寫/ 147
8.6.6應用程序2:相關性評分/ 152
8.6.7應用程序3:聊天機器人/ 156
8.7本章小結/ 160
參考文獻/ 160
第9章
word2vec的改進:fastText模型/ 162
9.1 fastText模型的原理/ 163
9.1.1回顧Skip-Gram算法/ 163
9.1.2 subword模型/ 164
9.1.3 subword形態/ 167
9.1.4分層softmax / 168
9.1.5 fastText的模型架構/ 170
9.1. 6 fastText算法實現/ 171
9.2應用場景:搜索廣告中的查詢詞關鍵詞匹配問題/ 172
9.3本章小結/ 173
參考文獻/ 174
第10章
生成對抗網絡/ 175
10.1生成對抗網絡的原理/ 176
10.1.1 GAN的基本模型/ 176
10.1.2 GAN優化目標的原理/ 178
10.1.3 GAN的訓練/ 179
10.1.4 GAN的擴展模型/ 180
10.2應用場景:搜索廣告中由查詢詞直接生成關鍵詞/ 182
10.2.1生成模型的構建/ 182
10.2.2判別模型的構建/ 184
10.2.3條件生成對抗網絡的構建/ 185
10.3本章小結/ 186
參考文獻/ 187
第11章
深度強化學習/ 188
11.1深度強化學習的原理/ 189
11.1.1強化學習的基本概念/ 189
11.1.2馬爾可夫決策過程/ 191
11.1.3價值函數和貝爾曼方程/ 192
11.1.4策略迭代和值迭代/ 194
11.1.5 Q-Learning / 196
11.1.6深度Q網絡/ 198
11.1.7策略梯度/ 201
11.1.8動作評價網絡/ 202
11.2應用場景:基於深度強化學習的推薦系統/ 203
11.3本章小結/ 206
參考文獻/ 206
第12章
工程實踐和線上優化/ 208
12.1 Seq2Seq模型介紹/ 209
12.2 LSTM優化分析/ 211
12.2.1優化一:指數運算的近似展開/ 214
12.2.2優化二:矩陣運算的執行速度優化/ 218
12.2.3優化三:多線程並行處理/ 224
12.3優化應用實例:RapidScorer算法對GBDT的加速/ 227
12.3.1背景介紹/ 228
12.3.2 RapidScorer數據結構設計/ 231
12.3.3 RapidScorer矢量化/ 233
12.3.4 RapidScorer實驗結果/ 237
12.4本章小結/ 238
參考文獻/ 239
第13章
深度學習的下一個浪潮/ 240
13.1深度學習的探索方向展望/ 241
13.1.1設計更好的生成模型/ 241
13.1.2深度強化學習的發展/ 241
13.1.3半監督學習與深度學習/ 242
13.1.4深度學習自身的學習/ 242
13.1.5遷移學習與深度學習的結合/ 242
13.1.6用於推理的深度學習/ 243
13.1.7深度學習工具的標準化/ 243
13.2深度學習的應用場景展望/ 243
13.2.1醫療健康領域/ 243
13.2.2安全隱私領域/ 248
13.2.3城市治理領域/ 249
13.2.4藝術創作領域/ 250
13.2.5金融保險領域/ 252
13.2.6無人服務領域/ 254
13.3本章小結/ 257
參考文獻/ 258