大數據時代的算法:機器學習、人工智能及其典型實例

大數據時代的算法:機器學習、人工智能及其典型實例

作者: 劉凡平
出版社: 電子工業
出版在: 2017-01-01
ISBN-13: 9787121304293
ISBN-10: 7121304295
裝訂格式: 平裝
總頁數: 220 頁





內容描述


<內容簡介>
 本書介紹在因特網行業中經常涉及的算法,包括排序算法、查找算法、資源分配算法、路徑分析算法、相似度分析算法,以及與機器學習相關的算法,包括數據分類算法、聚類算法、預測與估算算法、決策算法、關聯規則分析算法及推薦算法。本書涉及的相關算法均為解決實際問題中的主流算法,對於工作和學習都有實際參考意義。本書是一本算法領域內的技術參考書籍,涵蓋數十種算法,通過由淺入深的介紹基礎算法和機器學習算法相關理論和應用,闡述了各個算法的應用場景及算法複雜度,使讀者對算法的理解不只是停留在錶面,還從應用的角度提供了大量實例,使讀者能夠快速、高效進階各類算法,並能夠熟練應用到將來的工作實踐中。    

<章節目錄> 
第1章算法基礎1 1.1基礎算法分析類型1 1.1.1分治法1 1.1.2動態規劃法2 1.1.3回溯法3 1.1.4分支限界法4 1.1.5貪心法4 1.2算法性能分析5 1.3概率論與數理統計基礎6 1.4距離計算8 1.4.1歐氏距離8 1.4.2馬氏距離9 1.4.3曼哈頓距離9 1.4.4切比雪夫距離9 1.4.5閔氏距離9 1.4.6海明距離10 1.5排序算法10 1.5.1快速排序11 1.5.2歸併排序11 1.5.3堆排序13 1.5.4基數排序15 1.5.5外排序16 1.6字符壓縮編碼17 1.6.1哈夫曼編碼17 1.6.2香農-範諾編碼21 1.7本章小結24
 
第2章數據查找與資源分配算法25 2.1數值查找算法25 2.1.1二分搜索算法25 2.1.2分塊查找27 2.1.3哈希查找28 2.2字符串查找算法30 2.2.1 Knuth-Morris-Pratt算法31 2.2.2 Boyer-Moore算法34 2.2.3 Sunday算法37 2.3海量數據中的查找39 2.3.1基於布隆過濾器查找39 2.3.2倒排索引查找41 2.4銀行家算法43 2.5背包問題45 2.5.1 0-1背包問題45 2.5.2部分背包問題47 2.6本章小結47
  
第3章路徑分析算法49 3.1基於Dijkstra算法的路徑分析49 3.1 .1應用示例:極地探險49 3.1.2基於Dijkstra的最短路徑規劃50 3.2基於Floyd算法的路徑分析53 3.2.1應用示例:任意兩個城市之間的最短路徑53 3.2.2 Floyd原理54 3.2. 3基於Floyd算法計算兩個城市最短距離56 3.3基於A算法的路徑搜索58 3.3.1應用實例:繞過障礙區到達目的地58 3.3.2 A算法與最短距離計算59 3.4基於維特比算法的概率路徑61 3.4.1應用實例:推斷天氣狀態61 3.4.2維特比算法思想62 3.4.3計算天氣狀態62 3.5最長公共子序列問題64 3.5.1概要64 3.5.2最長公共子串64 3.5.3最長公共子序列原理66 3.5.4實例:求兩字符串的最長公共子序列66 3.6本章小結68
 第4章相似度分析算法69 4.1應用實例:海量網頁相似度分析69 4.2基於Jaccard相似係數的相似度計算70 4.2.1計算流程70 4.2.2狹義Jaccard相似係數71 4.2.3廣義Jaccard相似係數71 4.3基於MinHash的相似性算法71 4.3.1與Jaccard相似性關係71 4.3. 2計算網頁文本相似性過程72 4.4向量空間模型73 4.4.1詞袋模型73 4.4.2 TF-IDF算法74 4.5基於餘弦相似性算法的相似度分析76 4.5.1原理基礎76 4.5.2公式解析77 4.5.3計算網頁文本相似性過程77 4.6基於語義主題模型的相似度算法78 4.7基於SimHash算法的指紋碼80 4.7.1 SimHash引入81 4.7.2 SimHash的計算流程81 4.7.3計算重複信息83 4.8相似度算法的差異性84 4.9本章小結85
 
第5章數據分類算法86 5.1基於樸素貝葉斯分類器86 5.1.1有監督分類與無監督分類87 5.1.2應用實例:識別車釐子與櫻桃88 5.1.3分類流程歸納91 5.1.4應用擴展:垃圾郵件識別92 5.1.5常用評價指標96 5.2基於AdaBoost分類器100 5.2.1 AdaBoost概述100 5.2.2 AdaBoost算法具體流程101 5.2.3 AdaBoost算法的應用實例102 5.2.4 AdaBoost算法的優點105 5.3基於支持向量機的分類器105 5.3.1線性可分與線性不可分106 5.3.2感知器107 5.3.3支持向量機108 5.4基於K鄰近算法的分類器109 5.4.1應用實例:電影觀眾興趣發現109 5.4.2核心思想109 5.4.3電影觀眾興趣發現110 5.5本章小結113
 
第6章數據聚類算法115 6.1採用系統聚類法115 6.1. 1概述116 6.1.2最短距離法117 6.1.3重心聚類法119 6.1.4動態聚類法120 6.2基於K-Means聚類算法122 6.2.1應用實例:新聞聚類122 6.2.2邏輯流程123 6.2.3實現新聞聚類分析124 6.2.4 K-Means++ 128 6.2.5 K-中心點聚類算法129 6.2.6 ISODATA聚類算法130 6.3基於密度的DBSCAN算法131 6.4基於BIRCH算法的聚類分析133 6.4.1聚類特徵133 6.4.2聚類特徵樹134 6.5聚類與分類差異135 6.6本章小結136
 
第7章數據預測與估算算法137 7.1產生式模型與判別式模型137 7.2基於最大似然估計的預測138 7.3基於線性回歸的估算140 7.3.1概要140 7.3.2最小二乘法141 7.4基於最大期望算法分析143 7.5基於隱馬爾科夫模型預測144 7.5.1應用實例:高溫天氣與行為概率144 7.5.2原理分析145 7.5.3高溫天氣與行為概率147 7.6基於條件隨機場的序列預測151 7.6.1應用實例151 7.6.2原理分析151 7.6.3條件隨機場的優缺點153 7.7本章小結154
第8章數據決策分析算法155 8.1基於ID3算法的決策分析156 8.1.1信息量156 8.1.2信息熵156 8.1.3信息增益157 8.1.4 ID3算法流程157 8.1.5 ID3算法的應用157 8.2基於C4.5算法的分類決策樹159 8.2.1概要159 8.2.1應用實例159 8.3基於分類回歸樹的決策劃分161 8.3.1概要162 8.3.2應用實例:決策劃分163 8.3.2剪枝164 8.4基於隨機森林的決策分類168 8.4.1隨機森林的特點169 8.4.2隨機森林的構造方法169 8.4.3應用實例:決定車釐子的售價層次170 8.5本章小結172
 
第9章數據關聯規則分析算法174 9.1基於Apriori算法的關聯項分析174 9.1.1應用實例:超市的貨架擺放問題175 9.1.2基本概要175 9.1.3算法原理176 9.1.4有效擺放貨架176 9.2基於FP -Growth算法的關聯性分析179 9.2.1構建FP樹179 9.2.2頻繁項分析181 9.2.3與Apripri算法比較184 9.3基於Eclat算法的頻繁項集挖掘184 9.4本章小結185
第10章數據與推薦算法187 10.1概要187 10.1.1推薦算法發展188 10.1.2協同過濾推薦189 10.2基於Item-Based協同過濾推薦190 10.2.1 Item-Based基本思想190 10.2.2 Slope One實例:基於評分推薦190 10.3基於User-Based協同過濾推薦193 10.3.1應用實例:根據人群的推薦194 10.3.2 User-Based與Item-Based對比197 10.4基於潛在因子算法的推薦198 10.4.1應用實例:新聞推薦198 10.4.2流行度與推薦200 10.5推薦算法與效果評價201 10.6本章小結203




相關書籍

Spark和Python機器學習實戰:預測分析核心方法(第2版)

作者 [美]邁克爾·鮑爾斯(Michael Bowles)

2017-01-01

Computer Vision: From Surfaces to 3D Objects

作者 Tyler Christopher W.

2017-01-01

Intelligent Sensor Networks: The Integration of Sensor Networks, Signal Processing and Machine Learning (Hardcover)

作者 Fei Hu Qi Hao

2017-01-01