AI 語音辨識:用 Kaldi 實作應用全集

AI 語音辨識:用 Kaldi 實作應用全集

作者: 陳果果 都家宇 那興宇 張俊博
出版社: 深智數位
出版在: 2020-09-21
ISBN-13: 9789865501525
ISBN-10: 986550152X
裝訂格式: 平裝
總頁數: 384 頁





內容描述


從Hey、Siri、OK Google開始,我們早已習慣用語音來控制設備,語音輸入法取代鍵盤,Google幫你朗讀文章,你一定很好奇這些語音系統是如何建造出來的。
本書以Kaldi為主,完整介紹Librispeech等資料處理,並且完整說明了三音素架構。
語音模型方面:完整介紹語言模型、n元模型。
特徵工程方面:完整介紹包括對齊、Transition模型、GMM模型等。
構圖及解碼方面:完整介紹OpenFST、WFST等技術。
深度學習建模方面:完整介紹nnet、nnet2、nnet3。
大家最常用的語音搜尋、語音喚醒也有完整的實作介紹。類似人臉辨識的「人聲」辨識,也用PLDA、i-vector、x-vector等技術實作,最近當紅的語言辨識也沒錯過,可說是深入語音工程的最佳手冊。
好評來襲
顏永紅 中國科學院語言聲學與內容了解重點實驗室主任
Kaldi 開放原始碼軟體對推動語音技術研究和產品落地做出了不可磨滅的貢獻,本書作者是工作在語音研究和產業前端的青年才俊,他們以第一手經驗詳細說明了如何運用該軟體建置實際系統,這對初學者迅速掌握相關知識和技能是非常有益的。
俞凱 上海交通大學智慧語音技術實驗室主任,思必馳聯合創始人、首席科學家
我和Dan Povey 博士十幾年前在劍橋大學共事時,使用的是早期最著名的語音辨識開放原始碼軟體之一:HTK。雖然後來Kaldi 因其靈活的設計、開放的協定和豐富的功能而如日中天,卻一直在系統教學方面遠遠落後於HTK。本書從理論和實作的角度對Kaldi 進行了完整呈現,不僅有其實用價值,也為「知其所以然」列出了很好的註釋,相信必然會對Kaldi 的傳播和語音辨識技術的發展造成積極的促進作用。
崔寶秋 小米集團副總裁、集團技術委員會主席
Kaldi 是開放原始碼語音技術的典範,是大專院校同學們入門語音的啟發工具,也是人們快速提升語音技術的捷徑。它消除了大家因為長期沉浸在語音教科書和論文裡而產生的「手癢」,給人們帶來快速上手實作、快速感受語音資料之美的快樂。本書作者們都有豐富的工業界(包含小米)實戰經驗和深厚的學術累積,他們把這些經驗和累積無私地貢獻出來,也真正表現了開放原始碼的共用精神。擁抱開放原始碼是小米的工程文化,衷心希望Kaldi 及其社區在Daniel Povey 博士的主管下不斷茁壯成長、領導語音技術的發展。
張錦懋 美團首席科學家、基礎研發平台負責人
Kaldi 的誕生使得語音辨識領域的研究和創新成本都顯著降低,讓整個企業都獲益匪淺。這本書的幾位作者非常全面地介紹了Kaldi 的功能,包含資料處理、聲學模型、解碼器等相關的工具,同時對相關理論也進行了詳細的說明,讓讀者不僅學會使用Kaldi,而且能夠了解為什麼這麼使用。
雷欣 出門問問首席技術官
Kaldi 相比於經典的HTK 工具套件進行了極大的最佳化,譬如C++ 的採用、以WFST 為基礎的靜態解碼器、達到state-of-the-art 效能的recipe 指令稿等。這些優勢使得Kaldi 開放原始碼函數庫獲得迅速的發展,相當大地降低了語音技術的門檻,使得像出門問問這樣的語音創業公司能在短時間內開發出一流的語音技術產品。相比於經典的HTK Book,Kaldi 在文件方面則顯得落後很多。本書的作者們都是Kaldi 社區的活躍開發者,對Kaldi 及語音技術具有深刻的了解,他們的努力使得中國的語音技術同好們有了一本入門和加強的參考書,必將進一步推動語音技術的普及。
鄒月嫻 北京大學教授、博士生導師,深圳市人工智慧學會專家委主任
我在北京大學深圳研究所學生院開展教學和科學研究工作十四個整年頭,其間為電腦應用技術專業的學生主講「機器學習與模式識別」課程,帶領一群優秀的研究所學生開展機器聽覺技術研究。我們的教學和研究得益於許多的開放原始碼專案,深切體會到Kaldi 作為主流的語音辨識開放原始碼工具對同學們的幫助。Kaldi 秉承其開放原始碼社區的傳統特性,支援主流的機器學習架構和演算法,受到許多業界和學界開發者的支援。我相信本書的作者們正是秉承這樣的精神,以實際行動支援Kaldi 開放原始碼社區。這本書不僅介紹了語音技術的發展簡史、Kaldi 的發展歷史,也涵蓋了最新的以深度學習為基礎的語音技術主流架構和語音辨識應用實作案例,所呈現的內容和提供的實戰技巧接近產業需求,該書的出版將有益於學子們更加快速地了解主流的語音技術並迅速開展程式設計實作,推動語音技術進步和應用的發展。
李嵐 中軟國際教育科技集團人工智慧研究院執行院長
人工智慧技術在近年被確立為國家戰略後,大專院校和企業間深度合作,在人工智慧的人才培養上形成了一致看法,即實作是學校和學生的一致需求。從產業界的實際發展來看,隨著人工智慧技術應用領域的擴充,「聽」這一感知領域,已經是迫切需要得以提升和發展的。企業專家,特別是實際應用領域的專家聯合推動的企業資料和技術開放原始碼,為這個領域的人才培養做出了貢獻。而如何讓更多的老師和學生們了解語音領域的發展現狀及學習路徑,需要和本書的作者們一樣,分享自己的了解和系統整理。我們也將在後續工作中,將本書作為我們的教材之一,希望能推動語音領域人才的培養。


目錄大綱


01 語音辨識技術基礎
1.1 語音辨識極史 
1.2 語音辨識系統架構
1.3 一些其他細節
02 Kaldi 概要介紹
2.1 發展歷史
2.2 設計思想
2.3 安裝 
2.4 一個簡單的範例 
2.5 範例介紹
03 資料整理
3.1 資料分集 
3.2 資料前置處理 
3.3 輸入和輸出機制
3.4 常用資料表單與處理指令稿 
3.5 語言模型相關檔案
04 經典聲學建模技術
4.1 特徵分析 
4.2 單音素模型的訓練 
4.3 三音素模型訓練
4.4 特徵轉換技術 
4.5 區分性訓練
05 構圖和解碼
5.1 N 元文法語言模型
5.2 加權有限狀態轉換器 
5.3 用WFST 表示語言模型 
5.4 狀態圖的建置
5.5 圖的結構最佳化 
5.6 最後狀態圖的產生 
5.7 以權杖傳遞為基礎的維特比搜尋
5.8 SimpleDecoder 原始程式分析 
5.9 Kaldi 解碼器家族 
5.10 帶詞網格產生的解碼 
5.11 用語言模型重評分提升辨識率 
06 深度學習聲學建模技術
6.1 以神經網路為基礎的聲學模型
6.2 神經網路在Kaldi 中的實現 
6.3 神經網路模型訓練 
6.4 神經網路的區分性訓練 
6.5 與其他深度學習架構的結合
07 關鍵字搜尋與語音喚醒
7.1 關鍵字搜尋技術介紹 
7.2 語音檢索 
7.3 語音喚醒 
08 說話者辨識
8.1 概述 
8.2 以i-vector 和PLDA 為基礎的說話者辨識技術
8.3 以深度學習為基礎的說話者辨識技術
8.4 語言辨識 
09 語音辨識應用實作
9.1 語音辨識基本應用 
9.2 話音檢測模組
9.3 模型的適應 
9.4 解碼器的選擇及擴充
A 術語列表
B 常見問題解答


作者介紹


陳果果
約翰霍普金斯大學博士學位,師從語音識別開源工具Kaldi主要開發者Daniel Povey,以及約翰霍普金斯大學語言語音處理中心教授Sanjeev Khudanpur。成功的連續創業家。
都家宇
先後任職於清華大學語音技術實驗室、百度語音技術部,以及阿里巴巴iDST、達摩院語音組,從事聲學模型、解碼器、語音喚醒等方面的研發工作。
那興宇
先後任職於中國科學院聲學研究所和阿里巴巴機器人,曾任職微軟資深應用科學家,從事語音識別模型訓練系統和語音交互系統的開發。
張俊博
博士畢業於中國科學院聲學研究所,師從顏永紅研究員, 研究興趣包括語音識別、聲紋識別、語音合成和口語發音質量評測等。目前在小米從事語音領域的研發工作。




相關書籍

Python 數據分析與挖掘實戰

作者 鄧立國

2020-09-21

Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2, 3/e

作者 Sebastian Raschka Vahid Mirjalili

2020-09-21

深度學習視頻理解

作者 張皓

2020-09-21