復雜環境下語音信號處理的深度學習方法

復雜環境下語音信號處理的深度學習方法

作者: 張曉雷
出版社: 清華大學
出版在: 2022-01-01
ISBN-13: 9787302590002
ISBN-10: 7302590001
裝訂格式: 精裝
總頁數: 244 頁





內容描述


語音降噪處理是信號處理的重要分支領域。近年來,該領域在人工智能與深度學習技術的驅動下取得了突破性進展。本書系統總結語音降噪處理的深度學習方法,盡可能涵蓋該方法的前沿進展。全書共分8章。第 1章是緒論;第 2章介紹深度學習的基礎知識和常見的深度網絡模型;第 3~6章集中介紹基於深度學習的語音降噪處理前端算法,其中,第 3章介紹語音檢測,第4章介紹單通道語音增強,第5章介紹多通道語音增強,第6章介紹多說話人語音分離;第7章和第 8章分別介紹基於深度學習的語音降噪處理在聲紋識別和語音識別方面的應用,其中著重介紹基於深度學習的現代聲紋識別、語音識別基礎和前沿進展。 本書專業性較強,主要面向具備一定語音信號處理和機器學習基礎、致力於從事智能語音處理相關工作的高年級本科生、研究生和專業技術人員。


目錄大綱


目錄
 
 
第 1章緒論 .........................................................................................1
第 2章深度學習基礎 ............................................................................5 
2.1有監督學習................................................................................ 5 
2.2單層神經網絡 ............................................................................ 6 
2.2.1基本模型 ........................................................................ 6 
2.2.2激活函數 ........................................................................ 7 
2.3前饋深度神經網絡.....................................................................10 
2.3.1反向傳播算法.................................................................11 
2.3.2正則化...........................................................................15 
2.4循環神經網絡 ...........................................................................17 
2.4.1循環神經網絡基礎 ..........................................................17 
2.4.2長短時記憶網絡 .............................................................20 
2.4.3門控循環神經網絡 ..........................................................22 
2.4.4深層 RNN結構..............................................................23 
2.4.5序列數據的 RNN建模框架 .............................................25 
2.5捲積神經網絡 ...........................................................................26 
2.5.1捲積神經網絡基礎 ..........................................................27 
2.5.2其他捲積形式.................................................................31 
2.5.3殘差神經網絡.................................................................35 
2.5.4時序捲積網絡.................................................................37 
2.6神經網絡中的歸一化 .................................................................39 
2.6.1批歸一化 .......................................................................39 
2.6.2層歸一化 .......................................................................41 
2.7神經網絡中的註意力機制...........................................................42 
2.7.1編碼器-解碼器框架.........................................................42 
 
2.7.2 編碼器
-註意力機制-解碼器框架 .......................................44 
 
2.
7.3 單調註意力機制 .............................................................46  Transformer...................................................................47
 
 
2.7.4 
2.8生成對抗網絡 
...........................................................................48 
 
2.8.1 基本結構 
.......................................................................49 
 
2.8.2 模型訓練 
.......................................................................51 
 
 
 
2.9本章小結 
..................................................................................52
 
 
第 3章語音檢測................................................................................. 53 
3.1引言
.........................................................................................53 
 
3.2基本知識 
..................................................................................54 
 
3.2.1 信號模型 
.......................................................................54 
 
3.2.2 評價指標 
.......................................................................55 
 
 
 
3.3語音檢測模型 
...........................................................................57 
 
3.
3.1 語音檢測模型的基本框架 ................................................57 
 
3.
3.2 基於深度置信網絡的語音檢測 .........................................58 
 
3.
3.3 基於降噪深度神經網絡的語音檢測...................................61 
 
3.
3.4 基於多分辨率堆棧的語音檢測模型框架 ............................63 
 
 
 
3.
4語音檢測模型的損失函數...........................................................65 
 
3.
4.1 最小化交叉熵.................................................................66 
 
3.
4.2 最小均方誤差.................................................................66 
 
3.4.3 最大化 
ROC曲線下麵積 ................................................66 
 
 
 
3.
5語音檢測的聲學特徵 .................................................................69 
 
3.
5.1 短時傅里葉變換的頻帶選擇.............................................69 
 
3.
5.2 多分辨率類耳蝸頻譜特徵 ................................................70 
 
 
 
3.
6模型的泛化能力 ........................................................................72 
 
3.7本章小結 
..................................................................................73
 
 
第 4章單通道語音增強....................................................................... 75 
4.1引言
.........................................................................................75 
 
4.2基本知識 
..................................................................................77 
 
4.2.1 信號模型 
.......................................................................77 
 
4.2.2 評價指標 
.......................................................................79 
 
 
 
4.3頻域語音增強 
...........................................................................81 
 
4.3.1算法框架 
.......................................................................81 
 
4.3.2訓練目標 
.......................................................................82 
 
4.
3.3語音增強模型.................................................................89 
 
4.
3.4語音去混響模型 .............................................................93 
 
 
 
4.4時域語音增強 
.........................................................................100 
 
4.4.1關鍵問題 
.....................................................................101 
 
4.4.2捲積模型 
.....................................................................102 
 
4.4.3損失函數 
.....................................................................104 
 
 
 
4.5本章小結 
................................................................................106
 
 
 
第 5章多通道語音增強..................................................................... 107 
5.1引言
.......................................................................................107 
 
5.2信號模型 
................................................................................108 
 
5.
3空間特徵提取法 ......................................................................109 
 
5.3.1空間特徵 
.....................................................................109 
 
5.3.2深度模型 
.....................................................................111 
 
 
 
5.4波束形成方法 
.........................................................................113 
 
5.
4.1自適應波束形成器 ........................................................114 
 
5.4.2噪聲估計 
.....................................................................116 
 
5.
4.3基於神經網絡的波束形成方法 .......................................117 
 
 
 
5.
5自組織麥克風陣列方法 ............................................................121 
 
5.
5.1深度自組織波束形成.....................................................123 
 
5.
5.2通道權重估計...............................................................124 
 
5.
5.3通道選擇算法...............................................................125 
 
 
 
5.6本章小結 
................................................................................131
 
 
第 6章多說話人語音分離 ................................................................. 133 
6.1引言
.......................................................................................133 
 
6.2信號模型 
................................................................................134 
 
6.
3與說話人相關的語音分離方法 ..................................................134 
 
6.
3.1模型匹配法 ..................................................................134 
 
6.
3.2聲紋特徵法 ..................................................................139 
 
 
 
6.
4與說話人無關的語音分離.........................................................142 
 
6.
4.1深度聚類算法...............................................................143 
 
6.
4.2置換不變訓練算法 ........................................................146 
 
6.
4.3基於時域捲積的端到端語音分離算法 .............................148 
 
 
 
6.5本章小結 
................................................................................151
 
 
 
第 7章聲紋識別............................................................................... 153 
7.1引言
.......................................................................................153 
 
7.2說話人確認
.............................................................................155 
 
7.
2.1說話人確認基礎 ...........................................................155 
 
7.
2.2基於分類損失的深度嵌入說話人確認算法.......................159 
 
7.
2.3基於確認損失的端到端說話人確認算法 ..........................168 
 
 
 
7.
3說話人分割聚類 ......................................................................173 
 
7.
3.1說話人分割聚類基礎.....................................................174 
 
7.
3.2分階段說話人分割聚類 .................................................176 
 
7.
3.3端到端說話人分割聚類算法...........................................180 
 
 
 
7.4魯棒聲紋識別 
.........................................................................183 
 
7.
4.1結合增強前端的抗噪聲紋識別 .......................................183 
 
7.
4.2基於無監督域自適應的魯棒聲紋識別 .............................185 
 
 
 
7.5本章小結 
................................................................................188
 
 
第 8章語音識別............................................................................... 191 
8.1引言
.......................................................................................191 
 
8.2語音識別基礎 
.........................................................................193 
 
8.2.1信號模型 
.....................................................................193 
 
8.2.2評價指標 
.....................................................................193 
 
 
 
8.
3端到端語音識別 ......................................................................194 
 
8.
3.1連接時序分類模型 ........................................................194 
 
8.
3.2註意力機制模型 ...........................................................203 
 
 
 
8.
4語音識別的噪聲魯棒方法.........................................................206 
 
8.5說話人自適應 
.........................................................................210 
 
8.
5.1說話人自適應訓練 ........................................................210 
 
8.
5.2測試階段自適應 ...........................................................214 
 
 
 
8.6本章小結 
................................................................................220
 
 
參考文獻 ............................................................................................. 221




相關書籍

Spark MLlib機器學習:算法、源碼及實戰詳解

作者 黃美靈

2022-01-01

2030年僱用大崩壞:AI人工智慧讓你失去工作,還是不用工作?

作者 井上智洋 謝敏怡 譯

2022-01-01

可解釋機器學習:黑盒模型可解釋性理解指南

作者 Molnar Christoph 譯 朱明超

2022-01-01