概率數據結構與算法:面向大數據應用
內容描述
本書共6章。
每章都專門針對大數據應用中的一個特定問題,
首先對該問題進行深入的解釋,然後介紹可用於有效解決該問題的數據結構和算法。
第1章簡要概述了概率數據結構中廣泛使用的散列函數和散列表。
第2章專門介紹近似成員查詢,這是概率數據結構最著名的用例之一。
第3章討論了用來輔助估算元素基數的概率數據結構。
第4章和第5章討論流式場景下與頻數和排序相關的重要指標的計算。
第6章包含用於解決相似性問題的數據結構和算法,尤其是近鄰搜索問題。
目錄大綱
譯者序
前言
第1章 散列1
1.1 加密散列函數2
1.2 非加密散列函數5
1.3 散列表7
1.4 總結13
本章參考文獻13
第2章 成員查詢15
2.1 布隆過濾器16
2.2 計數布隆過濾器24
2.3 商數過濾器27
2.4 布穀過濾器38
2.5 總結46
本章參考文獻46
第3章 基數49
3.1 線性計數51
3.2 概率計數55
3.3 LogLog和HyperLogLog63
3.4 總結74
本章參考文獻74
第4章 頻數77
4.1 多數投票算法80
4.2 頻繁算法82
4.3 Count Sketch86
4.4 CountMin Sketch96
4.5 總結105
本章參考文獻105
第5章 排序107
5.1 隨機採樣109
5.2 q-摘要116
5.3 t-摘要125
5.4 總結135
本章參考文獻136
第6章 相似性139
6.1 局部敏感散列149
6.2 MinHash153
6.3 SimHash165
6.4 總結174
本章參考文獻174