自然語言處理技術——文本信息抽取及應用研究
內容描述
信息抽取的目的是從海量互聯網文本信息中抽取結構化知識,是知識圖譜自動化構建、更新的基礎,為信息檢索、推薦系統、智能問答等諸多研究領域提供底層知識推理支撐並取得了重大突破,是推動人工智能技術由感知走向認知的關鍵要素,具有重要的研究意義和實用價值。本書梳理了命名實體識別、關系抽取、事件抽取等相關研究方向的知識資源、基礎理論和實踐應用,詳細介紹了實體關系聯合抽取、弱監督關系抽取、基於遷移學習的關系抽取、多實例聯合事件抽取、基於因變量的事件模板推導等前沿理論研究,並以領域知識圖譜、事理圖譜等為例,詳細介紹了信息抽取在圖譜構建中的應用。最後本書對信息抽取進行了總結和未來研究方向展望。
目錄大綱
第1章 緒論 1
1.1 研究背景及意義 1
1.2 基本定義及問題描述 3
1.2.1 概念 3
1.2.2 命名實體識別 3
1.2.3 關系抽取 4
1.2.4 事件抽取 4
1.2.5 資源受限 6
1.2.6 信息抽取應用 7
1.3 基本研究方法與代表性系統 9
1.3.1 基於規則的方法 9
1.3.2 基於統計模型的方法 10
1.3.3 基於深度學習的方法 10
1.3.4 基於文本挖掘的方法 10
1.4 本書章節組織架構 11
第2章 基礎理論 13
2.1 詞匯語義表示 13
2.1.1 基於矩陣分解的方法 13
2.1.2 基於預測任務的方法 15
2.2 序列標註 16
2.3 條件隨機場 18
2.3.1 線性鏈條件隨機場 18
2.3.2 Viterbi算法 19
2.4 循環神經網絡 20
2.4.1 樸素循環神經網絡 21
2.4.2 長短期記憶網絡 22
2.4.3 門控循環單元 22
2.4.4 雙向循環神經網絡 23
2.5 捲積神經網絡 24
2.5.1 文本上的捲積 25
2.5.2 捲積神經網絡的優點 25
2.6 圖捲積神經網絡 26
2.7 多任務學習 28
2.7.1 多任務學習模式 28
2.7.2 多任務學習有效性分析 29
2.8 遠程監督 30
2.9 遷移學習 30
2.9.1 基於實例的遷移學習 31
2.9.2 基於特徵的遷移學習 31
2.9.3 基於共享參數的遷移學習 31
參考文獻 32
第3章 信息抽取相關評測和標註資源 35
3.1 MUC系列評測會議 35
3.2 ACE系列評測會議 37
3.3 TAC-KBP系列評測會議 40
3.4 其他研究活動 43
3.5 信息抽取標註資源 43
參考文獻 45
第4章 聯合實體識別的關系抽取 48
4.1 引言 48
4.2 問題描述 51
4.3 基於序列建模的實體識別 51
4.3.1 基於BERT的句子編碼 51
4.3.2 頭實體識別 52
4.3.3 尾實體識別 53
4.4 基於生成的實體關系聯合抽取 53
4.4.1 句子編碼 55
4.4.2 基於集合預測的解碼過程 56
4.5 基於翻譯的實體關系聯合抽取 57
4.5.1 輸入編碼 57
4.5.2 實體識別 58
4.5.3 關系預測 58
4.5.4 基於翻譯的實體關系聯合抽取案例 61
4.6 實驗驗證 62
4.6.1 數據集和評價指標 63
4.6.2 對比算法 63
4.6.3 實驗結果 64
4.6.4 問題與思考 65
4.7 本章小結 66
參考文獻 67
第5章 弱監督的關系抽取 69
5.1 引言 69
5.2 問題分析 70
5.3 基於註意力機制的弱監督關系抽取 73
5.3.1 基於切分捲積神經網絡的關系抽取 73
5.3.2 基於句子級別的註意力機制的遠程監督關系抽取 76
5.3.3 基於實體描述的句子級別的註意力機制的遠程監督關系抽取 77
5.3.4 基於非獨立同分佈的遠程監督關系抽取 80
5.4 基於圖捲積的遠程監督關系抽取 82
5.4.1 基於依存樹的圖捲積關系抽取 82
5.4.2 基於註意力機制引導的圖捲積神經網絡關系抽取 85
5.5 基於篇章級別的遠程監督關系抽取 87
5.6 實驗驗證 91
5.7 本章小結 95
參考文獻 96
第6章 基於知識遷移的關系抽取 101
6.1 引言 101
6.2 同類別遷移的關系抽取 102
6.2.1 引言 102
6.2.2 相關工作 104
6.2.3 基於領域分離映射的領域自適應關系抽取框架 106
6.2.4 實驗部分 111
6.2.5 總結與分析 117
6.3 跨類別遷移的關系抽取 118
6.3.1 引 言 118
6.3.2 相關工作 120
6.3.3 基於任務感知的小實例關系抽取模型 122
6.3.4 實驗部分 129
6.3.5 總結與分析 134
6.4 不均衡模型訓練方法 135
6.4.1 引 言 135
6.4.2 相關工作 137
6.4.3 基於多分佈選擇的不均衡數據分類方法 140
6.4.4 實驗部分 144
6.4.5 總結與分析 149
6.5 本章小結 149
參考文獻 150