防止 Spark Shell 中結構化流的進度輸出 (Prevent progress output from Structured Streaming in Spark Shell)


問題描述

防止 Spark Shell 中結構化流的進度輸出 (Prevent progress output from Structured Streaming in Spark Shell)

我目前正在 Scala Spark Shell 中嘗試結構化流。我的問題是,它會不斷寫入我無法隱藏的進度消息。類似的東西:

[Stage 5:==================================================>    (182 + 2) / 200]

我可以在控制台中編寫命令並訪問流,但這些消息總是會覆蓋我當前正在編寫的行。有沒有辦法在 shell 中禁用進度輸出?

作為參考,這就是我在 shell 中定義和啟動流的方式:

val streaming = spark.readStream.schema(dataSchema).option("maxFilesPerTrigger", 1).json("/user/mwilhelm/data/activity‑data/")
val activityCounts = streaming.groupBy("gt").count()
val activityQuery = activityCounts.writeStream.queryName("activity_counts").format("memory").outputMode("complete").start()

參考解法

方法 1:

Launching spark shell with following configuration will stop displaying progress indicator in console ‑

./bin/spark‑shell ‑‑conf spark.ui.showConsoleProgress=false

(by Markus WilhelmAjay Srivastava)

參考文件

  1. Prevent progress output from Structured Streaming in Spark Shell (CC BY‑SA 2.5/3.0/4.0)

#apache-spark #spark-structured-streaming






相關問題

為什麼我在 rdd 中的 println 會打印元素字符串? (Why does my println in rdd prints the string of elements?)

如何在 PySpark 中有效地按值排序? (How to sort by value efficiently in PySpark?)

Apache Spark 導致 Tomcat 正常關閉 (Apache Spark cause Tomcat to graceful shutdown)

查看 Spark 中派生的機器學習模型 (view machine learning model derived in Spark)

在 Spark 與 Redshift 上執行查詢 (Execute query on Spark vs Redshift)

Apache Spark:指向父 RDD 的引用指針 (Apache Spark: Reference pointer to the parent RDD)

防止 Spark Shell 中結構化流的進度輸出 (Prevent progress output from Structured Streaming in Spark Shell)

火花非確定性和重新計算安全 (Spark nondeterminism and recomputation safety)

使用 spark-submit 為 Spark Job 設置 HBase 屬性 (set HBase properties for Spark Job using spark-submit)

ST_WITHIN 使用 Spark/Java (ST_WITHIN using Spark / Java)

spark中的jdbc更新語句 (Jdbc update statement in spark)

使用 when() 進行條件聚合 (Conditional aggregation using when())







留言討論