環境設定
- JAVA_HOME: 設定 JAVA 的路徑
- SPARK_HOME: 設定 SPARK 的路徑
- PYSPARK_DRIVER_PYTHON: 設定 Driver 的 python 路徑
- PYSPARK_PYTHON=python3: 設定 Driver 的 python 版本
- 遇到的 Error:
Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot run with different minor versions
- 遇到的 Error:
- HOSTIP: 如果是用 cluster mode 的話需要設定。
Hadoop
- 如果是使用 Hadoop 作為檔案系統的話,處理檔案可能需要 hadoop client。