自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据之路

专注数据架构 外功修行,内功修神

原创 Apache DolphinScheduler集群部署方案

集群部署(Cluster) DolphinScheduler集群部署分为后端部署和前端部署两部分: 1、后端部署 1.1 : 基础软件安装(必装项请自行安装) PostgreSQL (8.2.15+) or Mysql (5.6或者5.7系列) : 两者任选其一即可 JDK (1.8+) :...

2020-02-25 12:35:52

阅读数 328

评论数 0

原创 大数据分析的下一代架构--IOTA架构设计实践[下]

IOTA架构提出背景 大数据3.0时代以前,Lambda数据架构成为大数据公司必备的架构,它解决了大数据离线处理和实时数据处理的需求。典型的Lambda架构如下: Lambda架构的核心思想是: 数据从底层的数据源开始,经过各样的格式进入大数据平台,然后分成两条线进行计算。一条线是进入流式计算平...

2018-12-31 20:59:53

阅读数 2455

评论数 0

原创 承载每天10万级任务的数据调度系统的架构是如何设计的

EasyScheduler大数据调度系统架构分享 导语 EasyScheduler是易观平台自主研发的大数据分布式调度系统。主要解决数据研发ETL 错综复杂的依赖关系,而不能直观监控任务健康状态等问题。EasyScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支...

2018-12-13 20:01:57

阅读数 31429

评论数 15

原创 Apache DolphinScheduler 单机部署方案

单机部署(Standalone) DolphinScheduler单机部署分为后端部署和前端部署两部分: 1、后端部署 1.1 : 基础软件安装(必装项请自行安装) PostgreSQL (8.2.15+) or Mysql (5.6或者5.7系列) : 两者任选其一即可 JDK (1.8+...

2020-02-25 12:32:21

阅读数 398

评论数 2

原创 Apache DolphinScheduler 1.2.1发布,可视化工作流任务调度系统

Apache DolphinScheduler 1.2.1发布,可视化工作流任务调度系统 ​Apache DolphinScheduler 于2020年2月24日正式发布 1.2.1 版,发布内容如下: 新特性: [#1497] 通过 API 创建的工作流在前端展示时自动调整布局。 [#7...

2020-02-25 12:21:43

阅读数 1410

评论数 2

原创 Error:java: javacTask: source release 8 requires target release 1.8异常处理

Error:java: javacTask: source release 8 requires target release 1.8 编译无问题,运行时报错: 环境: JDK Version: 1.8.0_171 IDE: IntelliJ Idea 2018 IntelliJ SDK Sett...

2019-12-24 16:16:32

阅读数 118

评论数 0

原创 Apache ShardingSphere & DolphinScheduler将举行联合meetup

您是否想加入Apache社区并成为某个项目的Committer或PPMC,拥有一个apache邮箱呢? 你是否知道apache社区的Committer也可以是非代码贡献者? 本联合meetup旨在让对开源有兴趣的伙伴们有机会加入到社区中来,成为一份子,让自己的青春热血留下永久痕迹,让自己的代码(或...

2019-11-24 22:44:22

阅读数 126

评论数 0

原创 Apache DolphinScheduler的官网正式上线了

DolphinScheduler的官网正式上线了: https://dolphinscheduler.apache.org , 后续的文档都将直接维护在官网上哈! 特此告知,欢迎关注!

2019-10-14 17:17:01

阅读数 1211

评论数 0

原创 全票通过!易观开源项目DolphinScheduler进入Apache孵化器

全票通过!易观开源项目DolphinScheduler进入Apache孵化器 美国时间2019年8月29日,易观开源的分布式任务调度引擎DolphinScheduler(原EasyScheduler)正式通过顶级开源组织Apache基金会的投票决议,以全票通过的优秀表现正式成为Apache孵...

2019-09-17 07:26:30

阅读数 2595

评论数 2

原创 第三届易观算法大赛 -- OLAP Session分析(5万奖金)

OLAP Session分析 赛题背景 Session,即会话,是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如,一次会话可以包含多个页面浏览、交互事件等。Session 是具备时间属...

2019-09-11 19:35:47

阅读数 107

评论数 0

原创 数据增长之线索培育升级

B2B增长之线索培育升级 数据驱动增长讲的大部分都是如何通过渠道质量优化与转化率优化最大能力去挖掘商机,然而增长不仅有拉新,因为增长负责人要关注的是整体业务增长,比如销售漏斗与客户数,资金流和团队效能等,就数字营销领域来说,增长除了拉新之外,还有很重要的一个指标就是促活,当有一定数量的用户的时候,...

2019-09-04 14:04:32

阅读数 123

评论数 0

原创 Easy Scheduler 1.1.0 Release发布,分布式工作流任务调度系统

Easy Scheduler Release 1.1.0 Easy Scheduler 1.1.0是1.1.x系列中的第一个版本。 新特性: [EasyScheduler-391] run a process under a specified tenement user [EasySchedu...

2019-08-08 08:06:15

阅读数 461

评论数 0

原创 现在Easy Scheduler想贡献给Apache基金会,我们做了一份问卷看下大家的想法,也请大家积极参与,谢谢!

感谢各位伙伴们长期以来的持续关注和贡献,现在Easy Scheduler想贡献给Apache基金会,我们做了一份问卷看下大家的想法,也请大家积极参与,谢谢! https://wj.qq.com/s2/4190958/5588/ 也欢迎大家直接去https://github.com/analysys...

2019-08-02 17:41:16

阅读数 272

评论数 0

原创 分布式工作流任务调度系统 Easy Scheduler 1.1.0 预览版发布

Easy Scheduler Release 1.1.0-Preview Easy Scheduler 1.1.0-Preview是1.x系列中的第六个版本。 新特性: [EasyScheduler-391] run a process under a specified tenement us...

2019-07-16 17:35:44

阅读数 239

评论数 0

原创 分布式任务调度EasyScheduler贡献代码流程

首先从远端仓库https://github.com/analysys/EasyScheduler.git fork一份代码到自己的仓库中 远端仓库中目前有三个分支: master 正常交付分支 发布稳定版本以后,将稳定版本分支的代码合并到master上。 dev 日常开发分支 日...

2019-07-05 11:20:26

阅读数 331

评论数 0

原创 开源分布式工作流任务调度系统EasyScheduler自定义任务插件开发

任务插件开发 提醒:目前任务插件开发暂不支持热部署 基于SHELL的任务 基于YARN的计算(参见MapReduceTask) 需要在 cn.escheduler.server.worker.task 下的 TaskManager 类中创建自定义任务(也需在TaskType注册对应的任务类型) ...

2019-06-13 17:43:05

阅读数 494

评论数 0

原创 Easy Scheduler 1.0.3 发布,分布式工作流任务调度系统

Easy Scheduler Release 1.0.3 Easy Scheduler 1.0.3是1.x系列中的第四个版本。 新特性: [EasyScheduler-254] 流程定义删除和批量删除 [EasyScheduler-347] 任务依赖增加“今日” [EasyScheduler-2...

2019-05-28 08:26:44

阅读数 604

评论数 1

原创 开源分布式工作流任务调度系统Easy Scheduler Release 1.0.2发布

Easy Scheduler Release 1.0.2 Easy Scheduler 1.0.2是1.x系列中的第三个版本。此版本增加了调度开放接口、worker分组(指定任务运行的机器组)、任务流程及服务监控以及对oracle、clickhouse等支持,具体如下: 新特性: [EasySc...

2019-04-26 20:08:20

阅读数 486

评论数 0

原创 持续改进中——Easy Scheduler 1.0.1版本来了

持续改进中——Easy Scheduler 1.0.1版本来了 背景 在多位技术小伙伴的努力下,经过近2年的研发迭代、内部业务剥离及重构,也经历一批种子用户试用一段时间后,EasyScheduler终于迎来了第一个正式开源迭代发布版本 – 1.0.1,免编译版本下载地址 – 1.0.1 相信做过...

2019-04-17 10:54:37

阅读数 1170

评论数 1

原创 分布式工作流任务调度系统Easy Scheduler正式开源

Easy Scheduler 大数据工作流调度系统已经开源,欢迎下载交流 https://github.com/analysys/EasyScheduler Easy Scheduler for Big Data 设计特点: 一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据...

2019-03-29 23:56:37

阅读数 2036

评论数 1

原创 git使用.gitignore忽略提交文件并没有生效问题解决

idea集成git过滤一些不必要提交到git上的文件以及文件夹的时候发现使用.ignore插件创建.gitignore来忽略提交文件并没有生效,每次commit还是带了一堆不必提交的文件,最后找到了处理办法: .gitignore只能忽略那些原来没有被track的文件,如果某些文件已经被纳入了版...

2019-03-28 18:02:06

阅读数 1151

评论数 0

原创 Excel表格转换为MarkDown表格工具

功能十分强大:https://tableconvert.com/ 还可以下载下来,真是很棒!

2019-03-18 22:49:49

阅读数 733

评论数 2

原创 留存分析为何要做, 如何做

导读 留存,是指用户在 App、网站等应用上使用过,并一段时间后仍有使用。留存分析模型是一种衡量用户健康度/参与度的方法,超越下载量、DAU 等这样的虚荣指标,深入了解用户的留存和流失状况,发现影响产品可持续增长的关键因素,指导市场决策、产品改进、提升用户价值等等。 ▌留存分析能解决哪些问...

2019-03-16 20:51:53

阅读数 939

评论数 0

原创 易观推出免费版本方舟Argo,同时开源SDK及调度

易观推出了免费版本方舟Argo,Argo是国内唯一的一款免费的可以私有化部署的用户行为分析平台,可以私有化对接自己的各种内部系统,它的商业版本已经在招商银行、当当、首汽等客户大面积使用了。 别人都是免费版到商业版,我们是先做商业版在做靠谱的免费版,初心真的是想把数据能力平民化,同时配合数据采集SD...

2019-03-01 23:02:37

阅读数 1553

评论数 0

原创 Apache Curator中的Connection Guarantees(连接保证)

Curator不断监控与ZooKeeper集合的连接。此外,每个操作都包含有重试机制。因此,可以做出以下保证: 每个Curator操作都会好好的等待,直到与ZooKeeper建立连接 每个Curator操作(create,getData等)都保证按照当前设置的重试策略管理连接丢失和会话过期 ...

2019-02-24 23:24:02

阅读数 817

评论数 0

原创 我关注的一些技术微信公众号

AI前线 微信号: ai-front InfoQ 微信号: infoqchina CSDN 微信号: CSDNnews 开源中国 微信号:oschina2013 AI科技大本营 微信号: rgznai100 美团技术团队 (ID:meituantech) Dat...

2019-02-21 15:46:19

阅读数 381

评论数 0

原创 Mac使用vnc远程登录ubuntu16.04桌面

mac使用vnc远程登录ubuntu16.04桌面 1.安装 在Ubuntu上安装x11vnc,如下: sudo apt-get install x11vnc 2.配置vnc密码 x11vnc -storepasswd 3.启动vnc服务 x11vnc -forever -shared -rfba...

2019-01-23 15:22:00

阅读数 6507

评论数 2

原创 开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)

本文为博主公司原创文章,仿冒必究,转载请回复留言 开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum) 易观CTO 郭炜 序 现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark...

2019-01-21 10:47:05

阅读数 24577

评论数 26

原创 大数据调度--有向无环图(DAG)之拓扑排序

拓扑排序(Topological Sorting) 维基百科上拓扑排序的定义为: 对于任何有向无环图(DAG)而言,其拓扑排序为其所有结点的一个线性排序(同一个有向图可能存在多个这样的结点排序)。该排序满足这样的条件——对于图中的任意两个结点U和V,若存在一条有向边从U指向V,则在拓扑排序中U一定...

2019-01-20 22:47:02

阅读数 1567

评论数 2

原创 2019.01.12 Presto中国区用户线下Meetup

2019.01.12号,我们邀请Presto原创团队莅临中国,带来关于Presto的最新feature和roadmap动态,也邀请国内的Presto前沿公司兄弟分享实践干货,期待各位朋友的参加: 活动地点:北京 朝阳区绿地中心B座10层 盖亚互娱 乌月神殿 活动时间:2019年1月12日 14:...

2019-01-13 12:38:37

阅读数 495

评论数 0

原创 HDFS中的内存存储支持

因工作中olap场景中对性能的极致要求,我们将部分业务数据的hdfs路径的存储策略设置为放在内存中(RAM_DISK)中,这是在hadoop2.6以后的版本支持的。抽空翻译了官网的文章 HDFS中的内存存储支持 介绍 管理员配置 限制副本使用的内存 在数据节点上设置RAM磁盘 选择tm...

2019-01-10 00:03:37

阅读数 1840

评论数 3

原创 spark-submit时上传spark依赖到hdfs时间较长问题解决

spark-submit时,发现上传spark依赖到hdfs 时间长达数分钟,现象如下方截图: 这个日志之后在上传程序依赖的jar,根据不同网络负荷,需要耗时数十秒甚至数分钟,导致任务提交速度超级慢,在官网上查到出现这种现象的原因:https://spark.apache.org/docs/...

2018-12-22 17:55:47

阅读数 924

评论数 0

原创 数据分析指标名词解释

数据分析指标名词解释 名词解释 维度 指人们分析事物的角度。比如,分析活跃用户,可以从时间的维度,也可以从地域的维度去看,也可以时间、地域两个维度组合去分析。 有层次关系的维度,就可以根据分析需求改变维的层次,变换分析的粒度钻取,比如分析活跃用户,从地域这个维度类型上,可以细分到省份、城市、...

2018-12-21 22:23:07

阅读数 1180

评论数 1

原创 劳动合同解除及补偿一览表

经济寒冬下,人员优化情况时有发生,小伙伴们了解一下自己的权益,哈哈!

2018-12-13 13:44:20

阅读数 371

评论数 0

原创 jvm疯狂吞占内存,罪魁祸首是谁

分享一篇公司小伙伴的关于jvm占用内存的技术文章 导读:JVM是Java Virtual Machine的缩写,中文名为Java虚拟机。它是一种用于计算设备的规范,是一个虚构出来的计算机,主要通过在实际的计算机上仿真模拟各种计算机功能来实现的。在实际运用过程中,易观技术人员注意到一台开发机上各个...

2018-11-12 14:25:32

阅读数 4079

评论数 1

原创 druid异常处理:Types.collectionOf(Ljava/lang/reflect/Type;)Ljava/lang/reflect/ParameterizedType

2018-11-10T19:54:35,072 INFO [task-runner-0-priority-0] io.druid.indexer.DetermineHashedPartitionsJob - Job wikiticker-determine_partitions_hashed-O...

2018-11-10 20:22:27

阅读数 553

评论数 0

原创 macbook上ssh localhost免密登录

第一步:ssh-keygen -t rsa         然后提示输入直接按回车就好 第二步:cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 第三步:chmod og-wx ~/.ssh/authorized_keys ...

2018-11-09 22:12:52

阅读数 1179

评论数 0

原创 Alluxio Meetup 2018.10.28北京进行,欢迎交流

#搜狗如何将Spark Shuffle迁移到上千台Alluxio机器集群,服务知识图谱? #七牛云如何用Alluxio在云端搭建通用深度学习平台? #京东又是如何定制基于普雷斯托的查询平台? 欢迎大家参加2018.10.28(本周日)Alluxio Meetup北京站。与Alluxio公司的...

2018-10-24 11:58:51

阅读数 290

评论数 0

原创 ES实践经验分享

公司小伙伴最近分享了ES的实践经验,在此分享给大家: 一、 硬件环境选择 如果有条件,尽可能使用SSD硬盘, 不错的CPU。ES的厉害之处在于ES本身的分布式架构以及lucene的特性;IO的提升,会极大改进ES的速度和性能;内存配置方面,一般来说,64G内存的机器节点较佳。   二、系统...

2018-09-19 17:22:20

阅读数 431

评论数 0

原创 Druid异常处理:java.lang.RuntimeException: No buckets?? seems there is no data to index.

2018-09-16T15:10:53,695 ERROR [task-runner-0-priority-0] io.druid.indexing.overlord.ThreadPoolTaskRunner - Exception while running task[HadoopIndexT...

2018-09-17 11:38:20

阅读数 771

评论数 0

提示
确定要删除当前文章?
取消 删除