深度學習之模型設計:核心算法與案例實踐
內容描述
本書理論知識體系完備,由淺入深,系統性地介紹了深度學習模型的發展脈絡,
以及模型深度設計、模型寬度設計、模型通道維度設計、殘差連接設計、
分組卷積設計、多尺度與非正常卷積設計、多輸入網絡設計、
時序神經網絡設計、三維卷積網絡設計、動態推理模型與註意力機制設計、
生成對抗網絡設計這10類主流的深度學習模型設計思想。
同時,本書為各模型設計思想提供了大量的實例,供讀者實戰演練。
本書注重內容的完整性與實用性,既可以作為深度學習與計算機視覺初學者、
相關專業的在校學生學算法的書籍,也可以作為相關工程人員查閱相關技術的參考手冊。
目錄大綱
第1章神經網絡和計算機視覺基礎
第1章神經網絡和計算機視覺基礎 1
1.1 計算機視覺 1
1.1.1 研究視覺的重要性 1
1.1.2 生物學視覺原理與視覺分層理論 2
1.2 數字圖像基礎 3
1.2.1 數字圖像基礎概述 3
1.2.4 數字圖像處理基礎 7
1.3 神經網絡基礎11
1.3.1 生物神經元與人工神經網絡12
1.3.2 感知機是神經網絡嗎12
1.3.3 BP算法16
第2章深度學習的基礎20
2.1 全連接神經網絡的局限性20
2.1.1 學習原理的缺陷20
2.1.2 全連接神經網絡的結構缺陷21
2.1.3 高性能的傳統機器學習算法22
2.2 深度學習第三次復興簡史22
2.2.1 互聯網與大數據來了23
2.2.2 GPU的普及23
2.2.3 深層神經網絡華麗歸來24
2.2.4 語音識別的重大突破25
2.2.4 圖像識別的重大突破26
2.2.5 自然語言處理的重大突破28
2.3 卷積神經網絡基礎29
2.3.1 卷積操作29
2.3.2 反捲積操作30
2.3.3 卷積神經網絡基本概念31
2.3.4 卷積神經網絡的核心思想33
2.3.5 卷積神經網絡的基本結構配置33
2.4 深度學習優化基礎37
2.4.1 激活模型與常用激活函數38
2.4.2 參數初始化方法43
2.4.3 歸一化方法45
2.4.4 池化49
2.4.5化方法50
2.4.6 學習率策略54
2.4.7 正則化方法57
2.5 深度學習主流開源框架60
2.5.1 Caffe 60
2.5.2 TensorFlow 61
2.5.3 Pytorch 61
2.5.4 Theano 62
2.5.5 Keras 62
2.5.6 MXNet 63
2.5.7 Chainer 63
參考文獻64
第3章數據集、評測指標與優化目標66
3.1 數據集66
3.1.1 分類數據集MNIST 66
3.1.2 ImageNet 66
3.1.3 分類數據集GHIM-10k 67
3.1.4 分類數據集Place20 67
3.1.5 肖像分割數據集68
3.1.6 視頻分類數據集UCF101 68
3.1.7 目標跟踪數據集ImageNet VIDEO 68
3.2 評測指標69
3.2.1 分類評測指標69
3.2.2 檢索與回歸評測指標73
3.2.3 圖像生成評測指標75
3.3 優化目標76
3.3.1 分類任務損失76
3.3.2 回歸任務損失78
參考文獻80
第4章加深網絡,提升模型性能81
4.1 經典的淺層卷積神經網絡81
4.1.1 Neocognitron網絡81
4.1.2 TDNN 83
4.1.3 Cresceptron網絡83
4.1.4 LeNet系列84
4.2 經典網絡的深度設計87
4.2.1 AlexNet 87
4.2.2 從AlexNet到VGGNet的升級90
4.2.3 為什麼需要更深的網絡93
4.3 實驗:網絡深度對分類模型性能的影響94
4.3.1 基準模型94
4.3.2 不同學習率策略與優化方法96
4.3.3 標準卷積模型網絡深度影響實驗104
4.3.4 MobileNet網絡深度影響實驗111
4.3.5 總結113
參考文獻114
第5章1×1卷積,通道維度升降的利器115
5.1 特徵通道與信息融合115
5.1.1 通道內特徵能做什麼115
5.1.2 通道間特徵能做什麼116
5.2 1×1卷積及其應用117
5.2.1 什麼是1×1卷積117
5.2.2 1×1卷積與瓶頸結構117
5.2.3 1×1卷積與SqueezeNet 118
5.3 1×1卷積在瓶頸結構中的作用120
5.3.1 基準模型120
5.3.2 瓶頸結構探索126
5.3.3 訓練結果143
5.4 1×1卷積在增強網絡表達能力中的作用145
5.4.1 基準模型145
5.4.2 網絡配置146
5.4.3 實驗結果146
參考文獻148
第6章加寬網絡,提升模型性能149
6.1 為什麼需要更寬的網絡結構149
6.2 經典模型的網絡寬度設計思想149
6.2.1 調整通道數量150
6.2.2 多分支網絡結構設計152
6.2.3 通道補償技術154
6.3 實驗:網絡寬度對模型性能的影響155
6.3.1 實驗背景155
6.3.2 訓練結果161
6.3.3 總結166
參考文獻166
第7章殘差連接,深層網絡收斂的關鍵167
7.1 殘差連接167
7.1.1 什麼是殘差連接167
7.1.2 為什麼殘差連接有效169
7.2 殘差網絡結構發展和應用171
7.2.1 密集連接的殘差網絡結構171
7.2.2 多分支殘差結構173
7.2.3 殘差連接與多尺度信息融合174
7.3 跳層連接在圖像分割中的應用175
7.3.1 數據集與基準模型175
7.3.2 Allconv5_SEG實驗184
7.3.3 增加跳層連接186
參考文獻199
第8章分組卷積與卷積拆分,移動端高效率經典模型201
8.1 卷積拆分與分組卷積201
8.1.1 卷積拆分201
8.1.2 分組卷積201
8.2 分組卷積結構202
8.2.1 簡單的通道分組網絡203
8.2.2 級連通道分組網絡204
8.2.3 多分辨率卷積核通道分組網絡205
8.2.4 多尺度通道分組網絡206
8.2.5 多精度通道分組網絡207
8.3 訓練一個用於圖像分割的實時分組網絡208
8.3.1 項目背景208
8.3.2 嘴唇分割模型訓練208
8.3.3 嘴唇分割模型優化212
參考文獻219
第9章多尺度網絡與非正常卷積,更豐富的感受野與不變性221
9.1 目標常見變換與不變性221
9.1.1 常見變換221
9.1.2 從模型本身獲取不變性221
9.1.3 從數據中學習不變性223
9.2 多尺度網絡結構224
9.2.1 圖像金字塔224
9.2.2 多尺度網絡225
9.3 非正常卷積網絡結構228
9.3.1 帶孔卷積228
9.3.2 可變形卷積229
9.3.3 非局部卷積230
9.4 STN在可變形手寫數字中的應用232
9.4.1 項目背景232
9.4.2 STN實驗233
參考文獻237
第10章多輸入網絡,圖像檢索和排序的基準模型238
10.1 什麼時候需要多個輸入238
10.1.1 圖像檢索238
10.1.2 目標跟踪239
10.1.3 相對排序239
10.2 常見多輸入網絡240
10.2.1 Siamese網絡240
10.2.2 Triplet網絡241
10.3 目標跟踪Siamese網絡實戰242
10.3.1 網絡結構242
10.3.2 數據讀取244
10.3.3 損失函數和評估指標247
10.3.4 模型訓練248
10.3.5 模型測試249
參考文獻254
第11章時序神經網絡,有記憶的網絡更聰明255
11.1 單向RNN和雙向RNN 255
11.1.1 RNN 255
11.1.2 雙向RNN 257
11.2 LSTM 258
11.3 LSTM視頻分類實踐260
11.3.1 數據準備260
11.3.2 數據讀取260
11.3.3 網絡定義264
11.3.4 模型訓練結果269
11.3.5 總結270
第12章卷積從二維變成三維,實現升維打擊271
12.1 三維卷積271
12.2 三維卷積的應用272
12.2.1 分類任務272
12.2.2 圖像分割274
12.3 一個用於視頻分類的三維卷積網絡274
12.3.1 基準模型與數據集275
12.3.2 數據讀取278
12.3.3 訓練結果280
12.3.4 參數調試281
12.3.5 總結283
參考文獻283
第13章動態推理與註意力機制,網絡因樣本而異284
13.1 拓撲結構動態變化的網絡284
13.1.1 訓練時拓撲結構變化的網絡284
13.1.2 測試時拓撲結構變化的網絡285
13.2 注意力機制288
13.2.1 空間注意力模型289
13.2.2 通道注意力模型[9] 289
13.2.3 混合注意力模型290
13.3 基於提前退出機制的BranchyNet分類實戰291
13.3.1 背景291
13.3.2 模型定義292
13.3.3 實驗結果302
參考文獻305
第14章生成對抗網絡306
14.1 生成對抗網絡的基本原理306
14.1.1 生成式模型與判別式模型306
14.1.2 GAN簡介307
14.2 生成對抗網絡損失的發展308
14.2.1 GAN的損失函數問題308
14.2.2 GAN的損失函數改進309
14.3 生成對抗網絡結構的發展310
14.3.1 條件GAN 310
14.3.2 多尺度級連GAN 311
14.3.3 多判別器單生成器GAN 312
14.3.4 多生成器單判別器GAN 313
14.3.5 多生成器多判別器GAN 313
14.4 DCGAN圖像生成實戰314
14.4.1 項目背景314
14.4.2 項目解讀315
14.4.3 實驗結果319
參考文獻321
作者介紹
作者言有三,畢業於,有超過5年的深度學習領域從業經驗,
以及超過6年的計算機視覺從業經驗,
創辦了微信公眾號《有三AI》和知識星球《有三AI》等知識生態,
目前已經全職做內容輸出,
於2019年花費大半年時間總結多年的知識積累和深度學習項目經驗並撰寫了這本書。