大數據原理與實踐:復雜信息的準備、共享和分析(原書第2版)
內容描述
本書介紹廣泛適用於大型復雜數據集的新方法,新版添加了大量應用實例及Python代碼示例,關註如何將原理付諸實踐。書中除了涵蓋常見的與大數據設計、架構、操作和分析相關的內容,還有涉及法律、社會和倫理問題的非技術性章節。書中描述的所有算法的核心部分都可以用幾行代碼輕松實現,可幫助讀者掌握如何在不安裝新軟件和不購買新硬件的情況下,有效地完成自己的項目。
本書特色
·重新審視數據準備環節,包括三元組、內省、標識符、不變性、永久性、單向散列、加密、計時和時間戳等技術及方法。
·討論大數據相關的數據結構,涵蓋分佈式賬本、一致性、索引、字典對象等概念,並討論了數據對象分類在大數據分析中的作用。
·分享大數據分析技巧,使用蒙特卡羅模擬等簡單方法來剋服大數據規模和維度的限制,還討論了數據再分析、數據重新利用和數據共享。