Big Data:大數據的概念與演算法
內容描述
本書主要目的是為了讓學習者能夠快速地對大數據的整體架構有初步的認識,內容完整兼顧原理與應用,協助學習者奠定大數據相關的知識與基礎。內容包含大數據應用相關的演算法、NoSQL 資料庫、文件系統、以及分析工具四大部份,並以附錄介紹近年來頗受歡迎的 R 語言,並輔以「股價分析」案例說明,以 step by step的方式協助學習者快速上手。另外,每章均附習題,讓學習者可以從中快速抓出課程重點,並檢核自己學習的效果。
1.讓學習者能夠快速地對大數據的整體架構有初步認識
2.內容完整兼顧大數據之原理與應用,奠定大數據相關的知識與基礎(包含:演算法/NoSQL 資料庫/文件系統/分析工具)
3.每章均附習題,讓學習者可以從中快速抓出課程重點,並檢核自己學習的效果
4.附錄放入近年來受歡迎的R語言,輔以「股價分析」案例,以step by step的方式協助學習者快速上手
目錄大綱
Chapter 01 簡介
第一節 為什麼Big Data 會受到重視
第二節 Big Data 的3V、4V 與5V
第三節 Big Data 的機會與挑戰
第四節 Big Data 在業界的應用實例
Chapter 02 預備知識
第一節 CAP & BASE 理論
第二節 BASE vs. ACID
第三節 雜湊表與分散式雜湊表的應用
第四節 為什麼關聯式資料庫在Big Data 的應用中會使不上力
第五節 分析Big Data 的方法
第六節 資料品質與知識發現模型
第七節 Big Data 應用的安全性與風險
第八節 分散式系統的設計要點
Chapter 03 演算法
第一節 Google MapReduce
第二節 Apache MapReduce
第三節 Apache Spark
第四節 Google Pregel
第五節 Apache Hama
Chapter 04 NoSQL資料庫
第一節 四大主流NoSQL 資料庫
第二節 Google Bigtable
第三節 Apache HBase
第四節 Apache:Cassandra
第五節 Amazon Dynamo
第六節 資料倉儲& Apache Hive
Chapter 05 文件系統
第一節 Google GFS
第二節 Apache HDFS
第三節 Facebook Haystack
Chapter 06 分析工具
第一節 Google Dremel
第二節 Apache Drill
第三節 Google BigQuery
第四節 Google Cloud Dataflow
Chapter 07 趨勢
第一節 NoHadoop/ Beyond Hadoop
第二節 Google Knowledge Graph
第三節 Open Data
第四節 Block Chain
第五節 Industry 4.0
附錄A R語言在計算應用上的優勢與特色
附錄B 運用R語言進行股價分析