面向機器學習的自然語言標註 (Natural language annotation for macbhine learning)
內容描述
自然語言理解是人工智能的一個重要分支,主要研究如何利用電腦來理解和生成自然語言。本書重點介紹了自然語言理解所涉及的各個方面,包括語法分析、語義分析、概念分析、語料庫語言學、詞匯語義驅動、中間語言、WordNet、詞匯樹鄰接文法、鏈接文法、基於語段的機器翻譯方法、內識別與文本過濾、機器翻譯的評測等,既有對基礎知識的介紹,又有對新研究進展的綜述,同時還結合了作者(JamesPustejovsky,生成詞庫理論的創始人)多年的研究成果。本書內容全面、詳略得當,結合實例講解,使讀者更易理解。
編輯推薦
《面向機器學習的自然語言標註》內容全面、詳略得當,結合實例講解,使讀者更易理解。自然語言理解是人工智能的一個重要分支,主要研究如何利用計算機來理解和生成自然語言。
名人推薦
“語言標註是自然語言處理的一個關鍵部分,但是現有的計算語言學課程卻少有涉及。本書是難得的一本從實踐角度討論自然語言標註,並且以服務於機器學習算法為目的來考察標註規格與設計的專著。它必將成為本科生和研究生計算語言學課程的一個標準。”
——Nancy Ide瓦薩學院計算機科學系教授
目錄大綱
前言1
第1章基礎知識7
1.1語言標註的重要性7
1.1.1語言學描述的層次8
1.1.2什麼是自然語言處理9
1.2語料庫語言學簡史10
1.2.1什麼是語料庫13
1.2.2語料庫的早期應用15
1.2.3當今的語料庫17
1.2.4標註類型18
1.3語言數據和機器學習24
1.3.1分類25
1.3.2聚類25
1.3.3結構化模式歸納26
1.4標註開發循環26
1.4 .1現象建模27
1.4.2按照規格說明進行標註30
1.4.3在語料庫上訓練和測試算法31
1.4.4對結果進行評價32
1.4.5修改模型和算法33
總結34
第2章確定目標與選擇數據36
2.1定義目標36
2.1.1目標陳述37
2.1.2提煉目標:信息量與正確性38
2.2背景研究43
2.2.1語言資源44
2.2.2機構與會議44
2.2.3自然語言處理競賽45
2.3整合數據集46
2.3.1理想的語料庫:代表性與平衡性47
2.3.2從因特網上收集數據47
2.3.3從人群中獲取數據48
2.4語料庫的規模49
2.4.1現有語料庫50
2.4. 2語料庫內部的分佈51
總結53
第3章語料庫分析54
3.1語料庫分析中的基本概率知識55
3.1.1聯合概率分佈56
3.1.2貝葉斯定理58
3.2計算出現次數58
3.2.1齊普夫定律(Zip'sLaw)61
3.2.2n元語法62
3.3語言模型63
總結65
第4章建立模型與規格說明66
4.1模型和規格說明示例66
4.1.1電影題材分類69
4.1.2添加命名實體70
4.1. 3語義角色71
4.2採用(或不採用)現有模型73
4.2.1創建模型和規格說明:一般性與特殊性74
4.2.2使用現有模型和規格說明76
4.2.3使用沒有規格說明的模型78
4.3各種標準78
4.3.1ISO標準78
4.3.2社區驅動型標準81
4.3.3影響標註的其他標準81
總結82
第5章選擇並應用標註標準84
5.1元數據標註:文檔分類85
5.1.1單標籤標註:電影評論85
5.1.2多標籤標註:電影題材87
5.2文本範圍標註:命名實體90
5.2.1內嵌式標註90
5.2.2基於詞例的分離式標註92
5.2.3基於字符位置的分離式標註95
5.3鏈接範圍標註:語義角色96
5.4ISO標準和你97
總結97
第6章標註與審核99
6.1標註項目的基本結構99
6.2標註規格說明與標註指南101
6.3準備修改102
6.4準備用於標註的數據103
6.4.1元數據103
6.4.2數據預處理104
6.4.3為標註工作分割文件104
6.5撰寫標註指南105
6.5.1例1:單標籤標註——電影評論106
6.5.2例2:多標籤標註——電影題材108
6.5.3例3:範圍標註——命名實體111
6.5.4例4:鏈接範圍標註——語義角色112
6.6標註人員114
6.7選擇標註環境116
6.8評價標註結果117
6.8.1Cohen的Kappa(κ)算法118
6.8.2Fleiss的Kappa(κ)算法119
6.8.3解釋Kappa係數122
6.8.4在其他上下文中計算κ值123
6.9創建黃金標準(審核)125
總結126
第7章訓練:機器學習129
7.1何謂學習130
7.2定義學習任務132
7.3分類算法133
7.3.1決策樹學習135
7.3.2樸素貝葉斯學習140
7.3.3最大熵分類器145
7.3.4其他需要了解的分類器147
7.4序列歸納算法148
7.5聚類和無監督學習150
7.6半監督學習150
7.7匹配標註與算法153
總結154
第8章測試與評價156
8.1測試算法157
8.2評價算法157
8.2.1混淆矩陣157
8.2.2計算評價得分159
8.2.3解釋評價得分163
8.3可能影響算法評價的問題164
8.3.1數據集太小164
8.3.2算法過於適合開發數據166
8.3.3標註中的信息過多166
8.4最後測試得分167
總結167
……
第9章修改與報告169
第10章標註:TimeML179
第11章自動標註:生成TimeML199
第12章後記:標註的未來發展趨勢217
附錄A可利用的語料庫與標註規格說明列表227
附錄B軟件資源列表249
附錄CMAE用戶指南269
附錄DMAI用戶指南276
附錄E參考文獻282
作者介紹
James Pustejovsky 教授是美國布蘭代斯(Brandeis University)大學計算機科學系和Volen國家綜合系統中心教授。先後在美國麻省理工學院和馬薩諸塞大學獲得學士學位和博士學位。
Pustejovsky教授主要從事自然語言的理論和計算研究。研究領域包括:計算語言學、詞彙語義學、知識表徵、話語語義學、時間推理和抽取等。已經出版多部專著。