spark-submit时上传spark依赖到hdfs时间较长问题解决

spark-submit时,发现上传spark依赖到hdfs 时间长达数分钟,现象如下方截图:

这个日志之后在上传程序依赖的jar,根据不同网络负荷,需要耗时数十秒甚至数分钟,导致任务提交速度超级慢,在官网上查到出现这种现象的原因:https://spark.apache.org/docs/2.1.1/running-on-yarn.html

翻译过来就是: 要想在yarn spark的runtime jars,需要指定spark.yarn.archive 或者 spark.yarn.jars。如果都这两个参数都没有指定,spark就会把$SPARK_HOME/jars/所有的jar上传到分布式缓存中

下面是解决方案:

  1. 将$SPARK_HOME/jars/* 下spark运行依赖的jar上传到hdfs上
    hdfs dfs -mkdir /tmp/spark/lib_jars
    hadoop fs -put $SPARK_HOME/jars/* hdfs:///tmp/spark/lib_jars
  2.  $SPARK_HOME/conf/spark-defaults.conf, 增加 如下信息:
     spark.yarn.jars hdfs:///tmp/spark/lib_jars/*.jar
展开阅读全文
©️2020 CSDN 皮肤主题: 护眼 设计师: 闪电赇 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值