藏語自然語言處理基本理論和方法
內容描述
《藏語自然語言處理基本理論和方法》介紹藏語自然語言處理的基本理論和方法。
《藏語自然語言處理基本理論和方法》11章,第1章介紹構成藏語語法單位的字、詞、短語和句子。
第2章介紹概率論、信息論等的基本概念,以及馬爾可夫模型、熵模型、條件隨機場等模型。
第3章介紹形式語言與自動機理論涉及的內容。
第4章介紹計算機字符編碼。
第5~10章分別闡述藏語語料庫、信息熵、拼寫形式語言、
自動分詞及詞性和語義標註、短語結構及其形式化描述和句法分析。
第11章結合藏漢機器翻譯,介紹統計機器翻譯原理。
目錄大綱
目錄
《信息科學技術學術著作叢書》序
前言
第1章藏語語法單位1
1.1藏文字符1
1.2藏文字2
1.2.1藏文字結構2
1.2.2藏文的書寫及字體3
1.3藏語詞語3
1.3.1格助詞4
1.3.2不自由虛詞7
1.3.3自由虛詞10
1.3.4動詞概述12
1.4藏語短語13
1.5藏語句子14
1.5.1藏語句子的特點14
1.5.2藏語句子的分類14
第2章理論基礎17
2.1集合論基礎17
2.1.1集合17
2.1.2字符串18
2.1.3函數20
2.1.4圖20
2.2概率論基礎22
2.2.1概率22
2.2.2似然估計23
2.2.3條件概率24
2.2.4全概率公式與貝葉斯公式24
2.2.5獨立性26
2.2.6隨機變量26
2.2.7聯合概率分佈和條件概率分佈27
2.2.8貝葉斯決策理論28
2.2.9期望和方差29
2.3信息論基礎30
2.3.1信息熵30
2.3.2信息熵的性質32
2.3.3聯合熵和條件熵34
2.3.4相對熵35
2.3 .5互信息35
2.3.6交叉熵36
2.3.7困惑度37
2.3.8噪聲信道37
2.4齊普夫定律39
2.5隱馬爾可夫模型41
2.5.1馬爾可夫模型41
2.5.2隱馬爾可夫模型的基本原理42
2.5.3隱馬爾可夫模型的三個基本問題44
2.6熵模型56
2.6.1熵模型的約束條件57
2.6.2熵模型的原則58
2.6.3熵模型的參數訓練58
2.7條件隨機場模型59
2.7.1條件隨機場定義60
2.7.2條件隨機場模型形式61
2.7.3條件隨機場模型的參數估計62
第3章形式語言與自動機64
3.1形式語言64
3.1.1形式語言概述64
3.1.2形式文法65
3.1.3形式文法的類型66
3.2自動機68
3.2.1自動機概述68
3.2.2正規文法與自動機72
第4章字符編碼75
4.1西文字符編碼75
4.2 ISO/IEC 10646與Unicode 76
4.2. 1緣起76
4.2.2 ISO/IEC 10646體系結構76
4.2.3 Unicode 79
4.3中文字符編碼81
4.3.1漢字字符編碼81
4.3.2藏文字符編碼85
第5章藏語語料庫的建設91
5.1語料庫概述91
5.2語料庫的類型91
5.3典型語料庫93
5.4藏語語料庫建設中存在的問題96
第6章藏文信息熵99
6.1概述99
6.2藏文字符的信息熵100
6.3藏文字的信息熵102
6.4藏語語言模型及其困惑度105
6.4.1 N元文法模型105
6.4.2困惑度107
6.4.3數據平滑109
6.5藏文輸入法的數學模型111
6.6藏文文本自動校對115
第7章藏文拼寫文法的形式化118
7.1藏文拼寫文法形式化描述118
7.1.1術語定義118
7.1.2符號映射119
7.1.3藏文拼寫文法規則120
7.1.4藏文的基本拼寫結構122
7.1.5藏文拼寫文法形式化描述127
7.1.6藏文拼寫文法性質131
7.2藏文拼寫形式語言133
7.2.1藏文拼寫形式語言概述133
7.2.2藏文拼寫形式文法135
7.3藏文字組成成分識別186
7.3.1藏文字組成成分的識別概述186
7.3.2藏文拼寫形式文法使用中的二義性問題188
第8章藏語自動分詞及詞性和語義標註190
8.1藏語自動分詞中的幾個關鍵問題190
8.1.1緊縮詞問題190
8.1.2歧義切分問題193
8.1.3未登錄詞問題195
8.2藏語自動分詞方法197
8.2.1基於規則的分詞方法197
8.2.2基於統計的分詞方法198
8.2.3基於條件隨機場模型的藏語分詞方法199
8.3命名實體識別206
8.3.1概述206
8.3.2命名實體識別方法207
8.4詞性標註209
8.4.1概述209
8.4.2詞類標記集的確定211
8.4.3基於規則的詞性標註方法215
8.4.4基於統計模型的詞性標註方法217
8.4.5基於規則與統計相結合的詞性標註方法219
8.5詞義標註221
8.5.1概述221
8.5.2基於互信息的詞義消歧方法221
8.5.3基於貝葉斯判別的詞義消歧方法223
8.5.4基於詞典的詞義消歧方法224
第9章現代藏語短語結構及其形式化描述225
9.1概述225
9.1.1藏語短語的句法知識理論225
9.1.2藏語短語的句法功能分類226
9.1.3藏語短語規則的形式表達229
9.2名詞性短語結構及其形式化描述231
9.2.1概述231 9.2.2定中結構的NP 232
9.2.3聯合結構的NP 240
9.3動詞性短語結構及其形式化描述241
9.3.1概述241
9.3.2主謂結構的VP 242
9.3.3述賓結構的VP 244
9.3.4述補結構的VP 246
9.3.5動詞聯合的VP 250
9.3.6狀中結構的VP 251
9.4形容詞性短語結構及其形式化描述252
9.4.1概述252
9.4.2聯合結構的AP 252
9.4.3狀中結構的AP 255
第10章藏語句法分析258
10.1藏語句型概述258
10.1.1 NP+PP+VP句型258
10.1.2 NP+VP句型259
10.2短語結構語法260
10.2.1形式語法260
10.2.2 CFG句法分析264
10.3藏語CFG句法分析265
10.3.1 LR分析算法265
10.3.2句法樹273
10.4依存語法275
10.4.1概述275
10.4.2依存句法分析方法277
10.5藏語依存句法分析281
10.5.1概述281
10.5.2藏語依存關係體系282
10.5.3確定性藏語依存句法分析286
第11章統計機器翻譯原理288
11.1機器翻譯概述288
11.1.1機器翻譯技術的發展288
11.1.2機器翻譯方法289
11.2統計機器翻譯291
11.3基於噪聲信道模型的統計機器翻譯基本原理291
11.4統計語言模型293
11.5統計翻譯模型296
11.5.1共現296
11.5.2對齊297
11.5.3 IBM模型1 300
11.5.4學習詞彙翻譯模型301
11.5.5其他更的IBM模型304
參考文獻305