自然語言處理理論與實戰

自然語言處理理論與實戰

作者: 唐聃
出版社: 電子工業
出版在: 2018-07-01
ISBN-13: 9787121343902
ISBN-10: 7121343908
裝訂格式: 平裝
總頁數: 360 頁





內容描述


本書分四個部分,第一部分主要介紹基礎知識,包括認識機器學習和自然語言處理、快速上手Python、線性代數、概率論和統計學;第二部分主要介紹自然語言處理技術,包括自然語言處理介紹、語料庫技術、中文分詞、數據預處理、馬爾科夫模型、條件隨機場、模型評估、剖析自然處理工具背後的原理;第三部分主要介紹機器學習技術,包括認識機器學習、常見機器學習算法、機器學習算法案例源碼實現。第四部分主要介紹工程項目實踐,包括Python項目實戰、自然語言處理項目實戰、機器學習結合自然語言處理綜合項目實戰。


目錄大綱


第1章基礎入門
1.1什麼是自然語言處理
1.1.1自然語言處理概述
1.1.2自然語言處理的發展歷史
1.1.3自然語言處理的工作原理
1.1.4自然語言處理的應用前景
1.2開發工具與環境
1.2.1 Sublime Text和Anaconda介紹
1.2.2開發環境的安裝與配置
1.3實戰:第一個小程序的誕生
1.3.1實例介紹
1.3.2源碼實現
第2章快速上手Python 
2.1初識Python編程語言
2.1.1 Python概述
2.1.2 Python能做什麼
2.1.3 Python的語法和特點
2.2 Python進階
2.2.1 Hello World 
2.2.2語句和控制流
2.2.3函數
2.2.4 List列表
2.2.5元組
2.2.6 set集合
2.2.7字典
2.2.8面向對象編程:類
2.2.9標準庫
2.3 Python深入——第三方庫
2.3.1 Web框架
2.3.2科學計算
2.3.3 GUI 
2.3.4其他庫
第3章線性代數
3.1線性代數介紹
3.2向量
3.2.1向量定義
3.2.2向量表示
3.2.3向量定理
3.2.4向量運算
3.3矩陣
3.3.1矩陣定義
3.3.2矩陣表示
3.3.3矩陣運算
3.3.4線性方程組
3.3.5行列式
3.3.6特徵值和特徵向量
3.4距離計算
3.4.1餘弦距離
3.4.2歐氏距離
3.4.3曼哈頓距離
3.4.4明可夫斯基距離
3.4.5切比雪夫距離
3.4.6杰卡德距離
3.4.7漢明距離
3.4.8標準化歐式距離
3.4.9皮爾遜相關係數
第4章概率論
4.1概率論介紹
4.2事件
4.2. 1隨機試驗
4.2.2隨機事件和样本空間
4.2.3事件的計算
4.3概率
4.4概率公理
4.5條件概率和全概率
4.5.1條件概率
4.5.2全概率
4.6貝葉斯定理
4.7信息論
4.7.1信息論的基本概念
4.7.2信息度量
第5章統計學
5.1圖形可視化
5.1.1餅圖
5.1.2條形圖
5.1.3熱力圖
5.1. 4折線圖
5.1.5箱線圖
5.1.6散點圖
5.1.7雷達圖
5.1.8儀錶盤
5.1.9可視化圖表用法
5.2數據度量標準
5.2.1平均值
5.2.2中位數
5.2.3眾數
5.2.4期望
5.2.5方差
5.2.6標準差
5.2.7標準分
5.3概率分佈
5.3.1幾何分佈
5.3.2二項分佈
5.3.3正態分佈
5.3.4泊松分佈
5.4統計假設檢驗
5.5相關和回歸
5.5.1相關
5.5.2回歸
5.5.3相關和回歸的聯繫
第6章語言學
6.1語音
6.1.1什麼是語音
6.1.2語音的三大屬性
6.1.3語音單位
6.1.4記音符號
6.1.5共時語流音變
6.2詞彙
6.2.1什麼是詞彙
6.2.2詞彙單位
6.2.3詞的構造
6.2.4詞義及其分類
6.2.5義項與義素
6.2.6語義場
6.2.7詞彙的構成
6.3語法
6.3.1什麼是語法
6.3.2詞類
6.3.3短語
6.3.4單句
6.3.5複句
第7章自然語言處理
7.1自然語言處理的任務和限制
7.2自然語言處理的主要技術範疇
7.2.1語音合成
7.2.2語音識別
7.2.3中文自動分詞
7.2.4詞性標註
7.2.5句法分析
7.2.6文本分類
7.2 .7文本挖掘
7.2.8信息抽取
7.2.9問答系統
7.2.10機器翻譯
7.2.11文本情感分析
7.2.12自動摘要
7.2.13文字蘊涵
7.3自然語言處理的難點
7.3.1語言環境複雜
7.3.2文本結構形式多樣
7.3.3邊界識別限制
7.3.4詞義消歧
7.3.5指代消解
7.4自然語言處理展望
第8章語料庫
8.1語料庫淺談
8.2語料庫深入
8.3自然語言處理工具包:NLTK 
8.3.1 NLTK簡介
8.3.2安裝NLTK 
8.3.3使用NLTK 
8.3.4在Python NLTK下使用Stanford NLP 
8.4獲取語料庫
8.4.1國內外著名語料庫
8.4.2網絡數據獲取
8.4.3 NLTK獲取語料庫
8.5綜合案例:走進大秦帝國
8.5.1數據採集和預處理
8.5.2構建本地語料庫
8.5.3大秦帝國語料操作
第9章中文自動分詞
9.1中文分詞簡介
9.2中文分詞的特點和難點
9.3常見中文分詞方法
9.4典型中文分詞工具
9.4.1 HanLP中文分詞
9.4.2其他中文分詞工具
9.5結巴中文分詞
9.5.1基於Python的結巴中文分詞
9.5.2結巴分詞工具詳解
9.5.3結巴分詞核心內容
9.5.4結巴分詞基本用法
第10章數據預處理
10.1數據清洗
10.2分詞處理
10.3特徵構造
10.4特徵降維與選擇
10.4.1特徵降維
10.4. 2特徵選擇
10.5簡單實例
10.6本章小結
第11章馬爾可夫模型
11.1馬爾可夫鏈
11.1.1馬爾可夫簡介
11.1.2馬爾可夫鏈的基本概念
11.2隱馬爾可夫模型
11.2.1形式化描述
11.2.2數學形式描述
11.3向前算法解決HMM似然度
11.3.1向前算法定義
11.3.2向前算法原理
11.3.3現實應用:預測成都天氣的冷熱
11.4文本序列標註案例:Viterbi算法
第12章條件隨機場
12.1條件隨機場介紹
12.2簡單易懂的條件隨機場
12.2.1 CRF的形式化表示
12.2.2 CRF的公式化表示
12.2.3深度理解條件隨機場
第13章模型評估
13.1從統計角度介紹模型概念
13.1.1算法模型
13.1.2模型評估和模型選擇
13.1.3過擬合與欠擬合的模型選擇
13.2模型評估與選擇
13.2.1模型評估的概念
13.2.2模型評估的評測指標
13.2.3以詞性標註為例分析模型評估
13.2.4模型評估的幾種方法
13.3 ROC曲線比較學習器模型
第14章命名實體識別
14.1命名實體識別概述
14.2命名實體識別的特點與難點
14.3命名實體識別方法
14.4中文命名實體識別的核心技術
14.5展望
第15章自然語言處理實戰
15.1 GitHub數據提取與可視化分析
15.1.1了解GitHub的API 
15.1.2使用NetworkX作圖
15.1.3使用NetworkX構建興趣圖
15.1.4 NetWorkX部分統計指標
15.1.5構建GitHub的興趣圖
15.1.6可視化
15.2微博話題爬取與存儲分析
15.2.1數據採集
15.2.2數據提取
15.2.3數據存儲
15.2.4項目運行與分析
附錄A Python與其他語言調用
附錄B Git項目上傳簡易教程
參考文獻


作者介紹


唐聃教授
中科院工學博士。現工作於成都信息工程大學軟件工程學院。研究方向包括自然語言處理、信息安全、數據分析。曾參與多項國家863項目和中科院知識創新工程項目、省科技廳和教育廳項目;2016年入選中國科學院西部之光人才計劃(中國科學院西部青年學者)。白寧超四川省計算機研究院軟件開發工程師,曾參與多項四川省科技廳項目。其自然語言處理系列博文曾被CSDN、博客園、阿里雲棲等多個技術社區轉載。




相關書籍

電腦視覺之深度學習:使用 TensorFlow 和 Keras 訓練高級神經網絡

作者 Rajalingappaa Shanmugamani 白勇譯

2018-07-01

深度學習:方法及應用

作者 鄧力 俞棟

2018-07-01

人工智能算法 捲3 深度學習和神經網絡

作者 Jeffery Heaton

2018-07-01