深度學習時代的電腦視覺算法
內容描述
本書著重闡述了深度學習時代的電腦視覺算法的工作原理,首先對深度學習與電腦視覺基礎進行了介紹,之後對捲積神經網絡結構的演化過程,以及基於深度學習的目標檢測算法、圖像分割算法、人體姿態估計算法、行人重識別與目標跟蹤算法、人臉識別算法以及圖像超分辨率重建方法進行了介紹。本書系統講解了在日常生活和工作中常見的幾項電腦視覺任務,並著重介紹了在當今深度學習時代,這些電腦視覺任務是如何工作的,可使讀者快速瞭解這些算法原理,以及其相互之間的關系。本書適合高年級本科生、研究生、教師,以及對人工智能或電腦視覺算法感興趣的工程技術人員閱讀。
目錄大綱
第 1章 深度學習與計算機視覺基礎 001
1.1 人工智能簡介 002
1.2 深度學習的崛起以及存在的問題 003
1.3 神經網絡的基本概念 004
1.3.1 前饋神經網絡 005
1.3.2 反向傳播算法 005
1.3.3 權重係數更新 007
1.4 卷積神經網絡原理 007
1.4.1 CNN的起源與發展 008
1.4.2 CNN結構簡介 009
1.4.3 CNN的其他組件 016
1.5 計算機視覺簡介 019
參考文獻 020
第 2章 基於深度學習的圖像分類算法 023
2.1 圖像分類——從特徵設計到卷積神經網絡結構設計 024
2.2 卷積神經網絡結構演化 026
2.2.1 從LeNet到VGG 026
2.2.2 Inception系列 028
2.2.3 ResNet系列 029
2.2.4 DenseNet系列 031
2.2.5 SqueezeNet系列 033
2.2.6 ShuffleNet系列 034
2.2.7 MobileNet系列 035
2.3 神經架構搜索 037
2.4 CNN的計算量與參數計算方法 037
2.5 小結 038
參考文獻 039
第3章 基於深度學習的目標檢測算法 043
3.1 目標檢測——從特徵設計到深度學習 044
3.1.1 任務簡介 044
3.1.2 傳統的目標檢測算法 045
3.1.3 基於深度學習的目標檢測方法 046
3.2 目標檢測的重要概念 047
3.2.1 交並比和非極大值 047
3.2.2 難負樣本挖掘 048
3.2.3 邊框回歸 049
3.2.4 檢測任務中的數據增廣 050
3.2.5 先驗框/默認邊框/錨框 050
3.2.6 錨框與真實邊框的匹配策略 051
3.2.7 感受野 051
3.2.8 RoI特徵圖映射 052
3.3 雙階段檢測算法 054
3.3.1 從R-CNN到Fast R-CNN 054
3.3.2 Faster R-CNN算法原理 057
3.4 單階段檢測算法 061
3.4.1 YOLO檢測算法 061
3.4.2 SSD檢測算法 067
3.5 融合單階段和雙階段的算法 073
3.5.1 單階段檢測算法及雙階段檢測算法的特點 073
3.5.2 RefineDet:結合單階段及雙階段優點 074
3.6 從頭訓練的檢測算法 075
3.6.1 從頭訓練的檢測算法簡介 075
3.6.2 精心設計CNN實現從頭訓練 076
3.6.3 從頭訓練的本質 077
3.7 檢測任務中的級聯設計 079
3.7.1 傳統的級聯檢測算法 079
3.7.2 深度學習下的級聯檢測 079
3.8 多尺度目標檢測 081
3.8.1 問題描述以及常用方法 081
3.8.2 多尺度訓練/ 082
3.8.3 特徵金字塔融合多層特徵 082
3.8.4 小尺寸目標檢測 086
3.9 檢測任務中的不平衡處理策略 087
3.9.1 雙階段中的不平衡策略 087
3.9.2 單階段中的不平衡策略 088
3.10 錨框的輪迴 089
3.10.1 錨框的起源 089
3.10.2 現有檢測算法中錨框的設計方法 090
3.10.3 錨框存在的問題 091
3.10.4 不需要錨框的算法 092
3.11 目標檢測的骨幹網絡設計 092
3.12 檢測算法加速 093
3.12.1 檢測流程的加速 094
3.12.2 檢測算法的輕量級網絡 094
3.13 自然場景文字檢測 095
3.14 遙感圖像目標檢測 096
3.15 常用數據集和評價指標 098
參考文獻 099
第4章 基於深度學習的圖像語義分割算法 103
4.1 圖像語義分割簡介 104
4.2 語義分割研究難點 105
4.3 語義分割算法模型 106
4.3.1 全卷積網絡基礎算法:FCN算法 106
4.3.2 編碼 解碼結構算法:U-Net算法 109
4.3.3 空洞卷積的應用:DeepLab系列 111
4.4 圖像實時語義分割 117
4.4.1 實時語義分割簡介 117
4.4.2 ENet算法 118
4.5 圖像分割數據集以及評價指標 122
4.5.1 圖像分割數據集 122
4.5.2 語義分割評估指標 123
參考文獻 124
第5章 基於深度學習的人體姿態估計算法 127
5.1 人體姿態估計任務簡介 128
5.1.1 任務簡介 128
5.1.2 面臨的挑戰 130
5.1.3 方法概述 130
5.2 單人姿態估計 132
5.3 自頂向下的多人姿態估計 133
5.4 自底向上的多人姿態估計 134
5.5 常用數據集以及評價指標 136
參考文獻 136
第6章 基於深度學習的行人重識別與目標跟踪 139
6.1 行人重識別任務簡介 140
6.1.1 任務簡介 140
6.1.2 工作流程 141
6.1.3 面臨的挑戰 142
6.1.4 與行人跟踪和人臉驗證的關係 143
6.1.5 行人重識別數據集及評價指標 144
6.2 特徵提取和相似度度量 144
6.3 行人重識別:從全局特徵到局部特徵 145
6.4 行人重識別:從表徵學習到度量學習 148
6.5 目標跟踪任務簡介 149
6.6 基於相關濾波的目標跟踪算法 150
6.7 基於孿生網絡的跟踪算法 151
參考文獻 153
第7章 基於深度學習的人臉識別 155
7.1 任務簡介 156
7.1.1 人臉驗證和人臉識別的區別 156
7.1.2 圖像分類和人臉識別的異同 157
7.1.3 技術難點 157
7.1.4 人臉識別算法原理 158
7.2 Softmax原理及存在的問題 160
7.2.1 Softmax函數和Softmax損失 160
7.2.2 Softmax存在的問題 161
7.3 度量損失 162
7.3.1 對比損失 162
7.3.2 三元組損失 163
7.4 大間隔損失 165
7.4.1 L-Softmax 165
7.4.2 SphereFace 166
7.4.3 CosFace 167
7.4.4 ArcFace 167
7.4.5 大間隔損失總結 168
7.5 特徵規範化和權重規範化 171
參考文獻 172
第8章 基於深度學習的圖像超分辨率重建方法 175
8.1 任務簡介 176
8.2 傳統方法 179
8.2.1 基於插值的方法 179
8.2.2 基於重建的方法 180
8.2.3 基於學習的方法 180
8.3 基於卷積神經網絡的圖像超分辨率重建方法 181
8.3.1 網絡模型 182
8.3.2 損失函數 184
8.3.3 訓練樣本 184
8.3.4 訓練策略 185
8.4 常用數據集與評價指標 186
參考文獻 187
作者介紹
徐從安,工學博士,海軍航空大學信息融合研究所副教授,清華大學訪問學者,入選中國科協青年人才托舉工程。長期從事智能信息處理、計算機視覺研究,主持或參與國家自然科學基金、裝備預研等課題項目10餘項,相關成果獲省部級科技進步獎4項。發表SCI、EI收錄論文30餘篇,出版譯著1部,授權專利10餘項。
李健偉,工學博士,主要研究方向為計算機視覺、雷達和電子對抗等,發表學術論文10餘篇,牽頭編寫學術專著2本,獲中國指揮與控制學會科學技術獎二等獎1項,構建了國內外**用於SAR圖像船舶目標檢測的數據集SSDD。
董雲龍,工學博士,海軍航空大學信息融合研究所教授,主要研究方向為雷達信息處理、多源信息融合,主持雷達雜波、目標檢測、誤差配準等相關科研項目20餘項,曾獲國家科技進步獎二等獎,省部級科技進步獎一等獎、二等獎共5項。
孫超,工學博士,主要研究方向為圖像處理、計算機視覺等,發表SCI、EI收錄論文10餘篇,參與編寫學術專著2本,授權專利2項。