基於MPI的大數據高性能計算導論
內容描述
本書是關於高性能計算和數據科學的入門教材,面向有基本算法知識和編程能力的讀者,書中選擇C++語言來實現數據科學中的算法,並使用和C語言綁定的OpenMPI應用程序編程接口來編寫並行程序,使用MPI標準介紹數據科學中的高性能計算,幫助讀者瞭解分佈式存儲模型中的並行編程知識。
本書分為兩部分,第一部分(第1~6章)基於MPI介紹高性能計算,第二部分(第7~11章)介紹計算機集群中的高性能數據分析。本書教輔資源豐富,書中相關的偽代碼可在對應網站下載,章末附有各種難度的練習和參考文獻,可供讀者進行自測和深入學習。
通過閱讀本書,你將學到:
阻塞與非阻塞的點對點通信、死鎖、全局通信函數(廣播、散播等)和協同計算(歸約)的基本概念。
互聯網絡的拓撲結構(環、環面和超立方體)以及相應的全局通信程序。
如何設計並實現基於分佈式內存的並行排序,瞭解並行線性代數知識(如矩陣相乘)。
使用MPI框架計算適用於處理大數據的MapReduce模型。
數據聚類技術(平面劃分聚類、層次聚類)。
基於k-NN的有監督分類及其與k均值聚類算法的比較。
核心集以及相關降維技術。
圖算法(最稠密子圖、圖同構檢測)。