使用 spark-submit 為 Spark Job 設置 HBase 屬性 (set HBase properties for Spark Job using spark-submit)


問題描述

使用 spark‑submit 為 Spark Job 設置 HBase 屬性 (set HBase properties for Spark Job using spark‑submit)

在 Hbase 數據遷移過程中,我遇到了一個java.lang.IllegalArgumentException: KeyValue size too large

長期來看:

我需要增加/etc/hbase/conf/hbase‑site.xml中的屬性hbase.client.keyvalue.maxsize(從1048576到10485760)但我現在無法更改此文件(我需要驗證)。

短期內:

我已成功使用命令導入數據:

hbase org.apache.hadoop.hbase.mapreduce.Import \
  ‑Dhbase.client.keyvalue.maxsize=10485760 \
  myTable \
  myBackupFile

現在我需要使用 spark‑submit 運行 Spark 作業

有什麼更好的方法:

  • 在 HBase 屬性前面加上 'spark. ' (我不確定它是否可能,如果它是'

    參考解法

    方法 1:

    If you can change your code, you should be able to set these properties programmatically. I think something like this used to work for me in the past in Java:

    Configuration conf = HBaseConfiguration.create();
    conf.set("hbase.client.scanner.timeout.period", SCAN_TIMEOUT); // set BEFORE you create the connection object below:
    Connection conn = ConnectionFactory.createConnection(conf);
    

    (by IndentVS_FF)

    參考文件

    1. set HBase properties for Spark Job using spark‑submit (CC BY‑SA 2.5/3.0/4.0)

#hadoop #hbase #apache-spark






相關問題

hadoop -libjars dan ClassNotFoundException (hadoop -libjars and ClassNotFoundException)

基於感興趣的日期範圍作為參數輸入限制在 Pig Latin 中加載日誌文件 (Restricting loading of log files in Pig Latin based on interested date range as parameter input)

選擇 MapReduce 設計模式 (Choosing a MapReduce Design Pattern)

Lỗi phân vùng tùy chỉnh (Custom Partitioner Error)

Connection Refused - 為什麼 zookeeper 嘗試連接到 localhost 而不是服務器 ip (Connection Refused - Why does zookeeper tries to connect to localhost instead of a server ip)

現有表的 Hive 分桶和分區 (Hive bucketing and partition for existing table)

如何在 R 中讀取 HDFS 中的文件而不會丟失列名和行名 (How to read files in HDFS in R without loosing column and row names)

CDH 網絡接口速度抑制 (CDH Network Interface Speed Suppress)

Apache Apex 是依賴 HDFS 還是有自己的文件系統? (Does Apache Apex rely on HDFS or does it have its own file system?)

java.io.IOException:作業失敗!使用 hadoop-0.19.1 在我的 osx 上運行示例應用程序時 (java.io.IOException: Job failed! when running a sample app on my osx with hadoop-0.19.1)

如何使用 PIG 腳本驗證列表 (How to validate a list using PIG script)

使用 spark-submit 為 Spark Job 設置 HBase 屬性 (set HBase properties for Spark Job using spark-submit)







留言討論