數據算法:Hadoop/Spark大數據處理技巧
內容描述
《數據算法:Hadoop/Spark大數據處理技巧》介紹了很多基本設計模式、優化技術和數據挖掘及機器學習解決方案,以解決生物信息學、基因組學、統計和社交網絡分析等領域的很多問題。這還概要介紹了MapReduce、Hadoop和Spark。
主要內容包括:
完成超大量交易的購物籃分析。
數據挖掘算法(K-均值、KNN和樸素貝葉斯)。
使用超大基因組數據完成DNA和RNA測序。
樸素貝葉斯定理和馬爾可夫鏈實現數據和市場預測。
推薦算法和成對文檔相似性。
線性回歸、Cox回歸和皮爾遜(Pearson)相關分析。
等位基因頻率和DNA挖掘。
社交網絡分析(推薦系統、三角形計數和情感分析)。