流式架構 : Kafka 與 MapR Streams 數據流處理
內容描述
所有連續的事件流都可以稱為數據流。對連續數據流設計和構建流式數據架構,能夠實現實時或近實時應用,提升整個組織的效率。本書以Apache Kafka 和MapRStreams為例,重點講解如何確定使用流數據的時機、如何為多用戶系統設計流式架構、為什麽要求消息傳遞層具備某些特定功能,以及為什麽需要微服務,並且描述了目前最符合流式設計需求的消息傳遞和流分析工具,適合架構師、大數據科學家及IT工程師閱讀。
目錄大綱
目錄
第1章為什麼使用流1
飛機、火車和汽車:車聯網和物聯網3
流數據:這才是現實世界6
什麼時候需要流8
不止是實時:流架構的更多優勢11
流架構的最佳實踐13
醫療數據流案例14
流數據:架構設計的核心17
第2章流式架構19
狹義視角:實時應用20
通用流式架構的關鍵問題21
消息傳遞技術的重要性24
實時分析工具28
Apache Storm 30
Apache Spark Streaming 31
Apache Flink 32
Apache Apex33
流分析功能比較33
小結.36
第3章流架構:微服務的理想平台37
為什麼需要微服務38
微服務需要哪些支撐41
關於微服務的更多 情42
設計流架構:以在線視頻服務為例45
新設計:支持消息傳遞的基礎設施47
通用微架構的重要性49
命名問題50
為什麼使用分佈式文件和NoSQL數據庫52
視頻服務的新設計52
小結:綜合平台視角54
第4章使用Kafka進行流傳輸57
Kafka的動機57
Kafka的創新58
Kafka的基本概念
作者介紹
作者簡介
Ted Dunning,MapR Technologies首席應用架構師,開源社區的活躍成員。現任Apache Foundation孵化器的VP,是大量項目的冠軍得主和導師,也是Apache ZooKeeper和Drill項目的貢獻者和PMC成員。
Ellen Friedman,解決方案諮詢師,著名演講者和作家,目前主要撰寫大數據方面的著作。她是Apache Drill和Apache Mahout項目的貢獻者。
譯者簡介
唐李洋,博士,研究方向為雲計算、並行計算、數據挖掘與分析等。曾經在Cisco從事過數據架構方面的設計與分析工作。