深度學習 (Deep Learning)(繁體中文版)
內容描述
「由三位深度學習領域專家撰寫的《Deep Learning》,是涵蓋內容最為全面的著作。對於要進入此領域的軟體工程師與學生,提供了兼具深度及廣度的觀點與淺顯數學概念,以及足供專家參考的內容。」
──Elon Musk,OpenAI共同主席;Tesla與SpaceX共同創辦人兼CEO。
「這是最完整的深度學習教科書。本書是由此領域的主要貢獻者所撰寫,清晰、全面與完整的呈現相關主題。想知道深度學習的起源、優勢與發展,請閱讀本書。」
──Geoffrey Hinton,英國皇家學會院士(FRS),Toronto大學榮譽教授;Google傑出研究人員。
「近十年來,深度學習著實讓技術界為之傾倒。有必要為學習者、實作者與教學者撰寫一本教科書,內容包括基本概念、實務項目與進階研究主題。本書是第一本全面涵蓋的書籍,由專精於該領域富有創新性與創造力的研究人員撰寫。本書會是今後幾年的重要參考書。」
──Yann LeCun,Facebook AI研究主管;New York大學電腦科學(資訊科學)、資料科學與神經科學的教授。
深度學習是一種機器學習,透過概念階層方式,讓電腦從經驗中學習,進而理解世界。由於可利用經驗累積知識,因此無須人為操控來指定電腦所需的全部知識。概念階層容許電腦經由簡單概念建置與學習更複雜的概念,其中組成的階層圖會呈現出多層深度框架。本書內容涵蓋廣泛的深度學習主題。
本書是以數學與概念為基底,涵蓋線性代數、機率論與資訊理論、數值計算以及機器學習等相關概念。書中將論述業界實作者與行家們使用的深度學習技術,包括深度前饋網路、正則化、優化演算法、卷積網路、序列建模與實務方法;同時討論概括論述相關應用,如自然語言處理、語音辨識、電腦視覺、線上推薦系統、生物資訊與電玩遊戲等。本書提供諸多研究觀點,包含線性因子模型、自動編碼器、表徵學習、結構化機率模型、蒙地卡羅法、配分函數、近似推論與深度生成模型等理論項目。
本書適合打算投入深度學習業界或研究領域的大學生與研究生,以及想要在資訊產品或平台中納入深度學習技術的軟體工程師閱讀。
封面圖片:Daniel Ambrosi的Central Park Azalea Walk Dreamscape(danielambrosi.com)。Daniel Ambrosi的Dreamscapes(夢景)是使用Google DeepDream開源軟體(由Google的Joseph Smarr與NVIDIA的Chris Lamb修改的版本)所建構的作品,以此軟體成功處理Ambrosi數億像素的全景圖片而成。
目錄大綱
本書的網站資源
致謝
數學符號
chapter 01 緒論
1.1 誰適合閱讀本書?
1.2 深度學習的歷史潮流
【PART I 應用數學與機器學習基礎】
chapter 02 線性代數
2.1 純量、向量、矩陣與張量
2.2 矩陣與向量的乘法
2.3 單位矩陣與反矩陣
2.4 線性相依與展成
2.5 範數
2.6 特種矩陣與向量
2.7 特徵分解
2.8 奇異值分解
2.9 Moore-Penrose 虛反矩陣
2.10 跡運算子
2.11 行列式
2.12 範例:主成分分析
chapter 03 機率與資訊理論
3.1 為何需要機率?
3.2 隨機變數
3.3 機率分布
3.4 邊際機率
3.5 條件機率
3.6 條件機率的連鎖法則
3.7 獨立性與條件獨立性
3.8 期望值、變異數與共變異數
3.9 常見的機率分布
3.10 常見函數的實用性質
3.11 貝氏法則
3.12 連續變數的技術細節
3.13 資訊理論
3.14 結構化機率模型
chapter 04 數值計算
4.1 overflow 與 underflow
4.2 不良條件狀態(病態)
4.3 梯度式優化
4.4 限制優化
4.5 範例:線性最小平方
chapter 05 機器學習基礎
5.1 學習演算法
5.2 配適能力、過度配適與配適不足
5.3 超參數與驗證集
5.4 估計式、偏誤與變異數
5.5 最大概似估計
5.6 貝氏統計
5.7 監督式學習演算法
5.8 非監督式學習演算法
5.9 隨機梯度下降
5.10 建置機器學習演算法
5.11 深度學習的需求動機
【PART II 深度網路:現代實務】
chapter 06 深度前饋網路
6.1 範例:學習 XOR
6.2 梯度式學習
6.3 隱藏單元
6.4 架構設計
6.5 倒傳遞與其他微分演算法
6.6 歷史記載
chapter 07 深度學習的正則化
7.1 參數範數懲罰
7.2 以範數懲罰做為限制優化
7.3 正則化與限制不足的問題
7.4 資料集擴增
7.5 雜訊穩健性
7.6 半監督式學習
7.7 多任務學習
7.8 提前停止
7.9 參數聯繫與參數共用
7.10 稀疏表徵
7.11 自助聚合與其他整體方法
7.12 dropout
7.13 對抗訓練
7.14 正切距離、正切傳遞與流形正切分類器
chapter 08 深度模型的訓練優化
8.1 學習優化與純粹優化的區別
8.2 類神經網路優化的挑戰
8.3 基本演算法
8.4 參數初始化策略
8.5 適應性學習率的演算法
8.6 近似二階法
8.7 優化策略與共通式演算法
chapter 09 卷積網路
9.1 卷積運算
9.2 動機
9.3 pooling
9.4 卷積與 pooling 做為無限強的先驗
9.5 基本卷積函數的變種
9.6 結構化輸出
9.7 資料型別
9.8 有效率的卷積演算法
9.9 隨機或非監督式特徵
9.10 卷積網路的神經科學基礎
9.11 卷積網路與深度學習的歷史
chapter 10 序列建模:循環網路與遞迴網路
10.1 展開運算圖
10.2 循環神經網路
10.3 雙向 RNNs
10.4 編碼器―解碼器或序列對序列架構
10.5 深度循環網路
10.6 遞迴神經網路
10.7 長期相依的挑戰
10.8 迴響狀態網路
10.9 洩漏單元與多時間尺度的其他策略
10.10 長短期記憶與其他閘控 RNNs
10.11 長期相依的優化
10.12 外顯記憶
chapter 11 實務方法論
11.1 效能度量
11.2 預設基線模型
11.3 決定是否收集更多資料
11.4 選擇超參數
11.5 除錯策略
11.6 多位數的數值辨識
chapter 12 應用
12.1 大型深度學習
12.2 電腦視覺
12.3 語音辨識
12.4 自然語言處理
12.5 其他應用
【PART III 深度學習研究】
chapter 13 線性因子模型
13.1 機率 PCA 與因子分析
13.2 獨立成分分析(ICA)
13.3 慢特徵分析
13.4 稀疏編碼
13.5 PCA 的流形詮釋
chapter 14 自動編碼器
14.1 undercomplete 自動編碼器
14.2 正則化的自動編碼器
14.3 表徵力、層尺寸與深度
14.4 隨機編碼器與解碼器
14.5 去雜訊自動編碼器
14.6 用自動編碼器學習流形
14.7 收縮自動編碼器
14.8 預測稀疏分解
14.9 自動編碼器的應用
chapter 15 表徵學習
15.1 貪婪逐層非監督式預先訓練
15.2 遷移學習與領域適應
15.3 原因因子的半監督式分解
15.4 分散式表徵
15.5 來自深度的指數增益
15.6 為找到潛在原因提供線索
chapter 16 深度學習的結構化機率模型
16.1 非結構化建模的挑戰
16.2 使用圖描述模型結構
16.3 圖模型的抽樣
16.4 結構化建模的優點
16.5 相依的學習
16.6 推論與近似推論
16.7 結構化機率模型的深度學習做法
chapter 17 蒙地卡羅法
17.1 抽樣與蒙地卡羅法
17.2 重要性抽樣
17.3 馬可夫鏈蒙地卡羅法
17.4 Gibbs 抽樣
17.5 個別峰值間 mixing 的挑戰
chapter 18 面對配分函數
18.1 對數概似梯度
18.2 隨機最大概似與對比散度
18.3 虛擬概似
18.4 評分匹配與比率匹配
18.5 去雜訊的評分匹配
18.6 雜訊-對比估計
18.7 估計配分函數
chapter 19 近似推論
19.1 將推論過程以優化問題看待
19.2 期望值最大化
19.3 MAP 推論與稀疏編碼
19.4 變分的推論與學習
19.5 學習近似推論
chapter 20 深度生成模型
20.1 波茲曼機
20.2 限制波茲曼機
20.3 深度信念網路
20.4 深度波茲曼機
20.5 用於實數資料的波茲曼機
20.6 卷積波茲曼機
20.7 針對結構化或循序輸出的波茲曼機
20.8 其他波茲曼機
20.9 經過隨機作業的倒傳遞
20.10 有向生成網路
20.11 從自動編碼器抽取樣本
20.12 生成隨機網路
20.13 其他生成方案
20.14 評估生成模型
20.15 總結
參考文獻
索引
作者介紹
Ian Goodfellow 是Google的研究人員(Research Scientist)。
Yoshua Bengio 是Montréal大學電腦科學(資訊科學)系教授。
Aaron Courville 是Montréal大學電腦科學(資訊科學)系助理教授。