Apache Spark:指向父 RDD 的引用指針 (Apache Spark: Reference pointer to the parent RDD)


問題描述

Apache Spark:指向父 RDD 的引用指針 (Apache Spark: Reference pointer to the parent RDD)

我了解 SPARK 會維護 RDD 的沿襲信息。假設我有一個 RDD “a”,並對其進行了一些轉換,我生成了一個新的 RDD “b”。在這種情況下,“a”是“b”的父 RDD。是否可以通過引用父指針從RDD“b”取回RDD“a”?

謝謝!


參考解法

方法 1:

It depends what is the real question:

  • yes ‑ If you extend RDD for example. It is necessary for most of the implementations of compute method.
  • no ‑ dependencies are not publicly accessible so you cannot get parents from an instance of RDD.

(by Yassir Suser6022341)

參考文件

  1. Apache Spark: Reference pointer to the parent RDD (CC BY‑SA 2.5/3.0/4.0)

#apache-spark #spark-streaming






相關問題

為什麼我在 rdd 中的 println 會打印元素字符串? (Why does my println in rdd prints the string of elements?)

如何在 PySpark 中有效地按值排序? (How to sort by value efficiently in PySpark?)

Apache Spark 導致 Tomcat 正常關閉 (Apache Spark cause Tomcat to graceful shutdown)

查看 Spark 中派生的機器學習模型 (view machine learning model derived in Spark)

在 Spark 與 Redshift 上執行查詢 (Execute query on Spark vs Redshift)

Apache Spark:指向父 RDD 的引用指針 (Apache Spark: Reference pointer to the parent RDD)

防止 Spark Shell 中結構化流的進度輸出 (Prevent progress output from Structured Streaming in Spark Shell)

火花非確定性和重新計算安全 (Spark nondeterminism and recomputation safety)

使用 spark-submit 為 Spark Job 設置 HBase 屬性 (set HBase properties for Spark Job using spark-submit)

ST_WITHIN 使用 Spark/Java (ST_WITHIN using Spark / Java)

spark中的jdbc更新語句 (Jdbc update statement in spark)

使用 when() 進行條件聚合 (Conditional aggregation using when())







留言討論