代立冬的数据之路

专注数据架构 外功修行,内功修神

Spark实战

01.Spark简介(Spark VS MapReduce) 02.Spark生态系统 03.Scala集合简介 04.spark的关键组件 05.核心概念:弹性分布式数据集 06.RDD的操作(转换(transformation)动作(actions)) 07.RDD依赖 08.Wordco...

2015-06-24 16:07:05

阅读数 27986

评论数 8

开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)

本文为博主公司原创文章,仿冒必究,转载请回复留言 开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum) 易观CTO 郭炜 序 现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark...

2019-01-21 10:47:05

阅读数 18974

评论数 8

[Spark经验一]Spark RDD计算使用的函数里尽量不要使用全局变量

比如RDD里的计算调用了别的组件类里的方法(比如hbase里的put方法),那么序列化时,会将该方法所属的对象的所有变量都序列化的,可能有些根本没有实现序列化导致直接报错。也就是spark的api没有做到用户无感知,在使用一些全局方法时还需自己控制。简单点,能定义在计算函数内的方法就定义在里面。

2016-03-19 22:33:03

阅读数 6103

评论数 3

大数据分析的下一代架构--IOTA架构设计实践[下]

IOTA架构提出背景 大数据3.0时代以前,Lambda数据架构成为大数据公司必备的架构,它解决了大数据离线处理和实时数据处理的需求。典型的Lambda架构如下: Lambda架构的核心思想是: 数据从底层的数据源开始,经过各样的格式进入大数据平台,然后分成两条线进行计算。一条线是进入流式计算平...

2018-12-31 20:59:53

阅读数 1775

评论数 0

Spark Streaming 实现思路与模块概述

Spark Streaming 实现思路与模块概述 [酷玩 Spark] Spark Streaming 源码解析系列 ,返回目录请 猛戳这里 「腾讯·广点通」技术团队荣誉出品 本文内容适用范围: 2016.01.04 update, Spark 1.6 全系列 √ (1.6.0)2015...

2016-02-05 16:19:12

阅读数 1464

评论数 0

对DStream.foreachRDD的理解

最近在使用Spark Streaming过程中,对foreachRDD有点疑问,查阅资料后记录如下: foreachRDD(func)的官方解释为 The most generic output operator that applies a function, func, to each RD...

2017-11-09 11:36:47

阅读数 1406

评论数 0

Spark Streaming 的一些问题

Spark Streaming 的一些问题,做选型前关注这些问题可以有效的降低使用风险。 checkpoint checkpoint 是个很好的恢复机制。但是方案比较粗暴,直接通过序列化的机制写入到文件系统,导致代码变更和配置变更无法生效。实际场景是升级往往比系统崩溃的频率高太多。但...

2016-01-18 01:19:24

阅读数 1368

评论数 0

Apache Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spa...

2017-04-05 09:59:52

阅读数 882

评论数 0

spark-submit时上传spark依赖到hdfs时间较长问题解决

spark-submit时,发现上传spark依赖到hdfs 时间长达数分钟,现象如下方截图: 这个日志之后在上传程序依赖的jar,根据不同网络负荷,需要耗时数十秒甚至数分钟,导致任务提交速度超级慢,在官网上查到出现这种现象的原因:https://spark.apache.org/docs/...

2018-12-22 17:55:47

阅读数 473

评论数 0

2019.01.12 Presto中国区用户线下Meetup

2019.01.12号,我们邀请Presto原创团队莅临中国,带来关于Presto的最新feature和roadmap动态,也邀请国内的Presto前沿公司兄弟分享实践干货,期待各位朋友的参加: 活动地点:北京 朝阳区绿地中心B座10层 盖亚互娱 乌月神殿 活动时间:2019年1月12日 14:...

2019-01-13 12:38:37

阅读数 375

评论数 0

druid异常处理:Types.collectionOf(Ljava/lang/reflect/Type;)Ljava/lang/reflect/ParameterizedType

2018-11-10T19:54:35,072 INFO [task-runner-0-priority-0] io.druid.indexer.DetermineHashedPartitionsJob - Job wikiticker-determine_partitions_hashed-O...

2018-11-10 20:22:27

阅读数 362

评论数 0

各种压缩技术性能比较

各种压缩技术性能比较: Compressor name Ratio Compression Decompress. zstd 1.3.4 -1 2.877 470 MB/s 1380 MB/s zlib 1.2.11 -1 2.743 11...

2018-09-14 12:09:48

阅读数 291

评论数 0

ES实践经验分享

公司小伙伴最近分享了ES的实践经验,在此分享给大家: 一、 硬件环境选择 如果有条件,尽可能使用SSD硬盘, 不错的CPU。ES的厉害之处在于ES本身的分布式架构以及lucene的特性;IO的提升,会极大改进ES的速度和性能;内存配置方面,一般来说,64G内存的机器节点较佳。   二、系统...

2018-09-19 17:22:20

阅读数 270

评论数 0

Alluxio Meetup 2018.10.28北京进行,欢迎交流

#搜狗如何将Spark Shuffle迁移到上千台Alluxio机器集群,服务知识图谱? #七牛云如何用Alluxio在云端搭建通用深度学习平台? #京东又是如何定制基于普雷斯托的查询平台? 欢迎大家参加2018.10.28(本周日)Alluxio Meetup北京站。与Alluxio公司的...

2018-10-24 11:58:51

阅读数 256

评论数 0

提示
确定要删除当前文章?
取消 删除