代立冬的数据之路

专注数据架构 外功修行,内功修神

spark-submit时上传spark依赖到hdfs时间较长问题解决

spark-submit时,发现上传spark依赖到hdfs 时间长达数分钟,现象如下方截图: 这个日志之后在上传程序依赖的jar,根据不同网络负荷,需要耗时数十秒甚至数分钟,导致任务提交速度超级慢,在官网上查到出现这种现象的原因:https://spark.apache.org/docs/...

2018-12-22 17:55:47

阅读数 473

评论数 0

对DStream.foreachRDD的理解

最近在使用Spark Streaming过程中,对foreachRDD有点疑问,查阅资料后记录如下: foreachRDD(func)的官方解释为 The most generic output operator that applies a function, func, to each RD...

2017-11-09 11:36:47

阅读数 1406

评论数 0

Apache Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spa...

2017-04-05 09:59:52

阅读数 882

评论数 0

Spark实战

01.Spark简介(Spark VS MapReduce) 02.Spark生态系统 03.Scala集合简介 04.spark的关键组件 05.核心概念:弹性分布式数据集 06.RDD的操作(转换(transformation)动作(actions)) 07.RDD依赖 08.Wordco...

2015-06-24 16:07:05

阅读数 27986

评论数 8

Spark Streaming 的一些问题

Spark Streaming 的一些问题,做选型前关注这些问题可以有效的降低使用风险。 checkpoint checkpoint 是个很好的恢复机制。但是方案比较粗暴,直接通过序列化的机制写入到文件系统,导致代码变更和配置变更无法生效。实际场景是升级往往比系统崩溃的频率高太多。但...

2016-01-18 01:19:24

阅读数 1368

评论数 0

Spark Streaming 实现思路与模块概述

Spark Streaming 实现思路与模块概述 [酷玩 Spark] Spark Streaming 源码解析系列 ,返回目录请 猛戳这里 「腾讯·广点通」技术团队荣誉出品 本文内容适用范围: 2016.01.04 update, Spark 1.6 全系列 √ (1.6.0)2015...

2016-02-05 16:19:12

阅读数 1464

评论数 0

提示
确定要删除当前文章?
取消 删除