代立冬的数据之路

专注数据架构 外功修行,内功修神

开源分布式工作流任务调度系统EasyScheduler自定义任务插件开发

任务插件开发 提醒:目前任务插件开发暂不支持热部署 基于SHELL的任务 基于YARN的计算(参见MapReduceTask) 需要在 cn.escheduler.server.worker.task 下的 TaskManager 类中创建自定义任务(也需在TaskType注册对应的任务类型) ...

2019-06-13 17:43:05

阅读数 211

评论数 0

开源分布式工作流任务调度系统EasyScheduler使用详解

开源分布式工作流任务调度系统EasyScheduler使用详解 登录 输入http://192.168.xx.xx:8888/view/login/index.html 网址,输入用户名:admin,密码:escheduler123 登录 登录之后每个页面的右上角都有用户的身份...

2019-06-13 17:37:01

阅读数 283

评论数 0

Easy Scheduler 1.0.3 发布,分布式工作流任务调度系统

Easy Scheduler Release 1.0.3 Easy Scheduler 1.0.3是1.x系列中的第四个版本。 新特性: [EasyScheduler-254] 流程定义删除和批量删除 [EasyScheduler-347] 任务依赖增加“今日” [EasyScheduler-2...

2019-05-28 08:26:44

阅读数 466

评论数 0

大数据分析的下一代架构--IOTA架构设计实践[下]

IOTA架构提出背景 大数据3.0时代以前,Lambda数据架构成为大数据公司必备的架构,它解决了大数据离线处理和实时数据处理的需求。典型的Lambda架构如下: Lambda架构的核心思想是: 数据从底层的数据源开始,经过各样的格式进入大数据平台,然后分成两条线进行计算。一条线是进入流式计算平...

2018-12-31 20:59:53

阅读数 1775

评论数 0

承载每天10万级任务的数据调度系统的架构是如何设计的

EasyScheduler大数据调度系统架构分享 导语 EasyScheduler是易观平台自主研发的大数据分布式调度系统。主要解决数据研发ETL 错综复杂的依赖关系,而不能直观监控任务健康状态等问题。EasyScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支...

2018-12-13 20:01:57

阅读数 28959

评论数 12

分布式任务调度EasyScheduler贡献代码流程

首先从远端仓库https://github.com/analysys/EasyScheduler.git fork一份代码到自己的仓库中 远端仓库中目前有三个分支: master 正常交付分支 发布稳定版本以后,将稳定版本分支的代码合并到master上。 dev 日常开发分支 日...

2019-07-05 11:20:26

阅读数 12

评论数 0

数据分析方法论之常用分析思路

对于一款App来讲,市场渠道人员比较关注渠道的获客质量,经常会用到渠道分析;运营人员比较关注用户在产品内的行为信息,通常会用到用户分群,进行针对性运营;产品人员则关注产品功能的使用情况以及核心流程的转化情况。那么如何实现所有业务人员的数据需求。 我们以有帐号体系产品的注册为核心流程为例,一般产品的...

2019-06-01 23:03:44

阅读数 256

评论数 1

大数据分析常用去重算法分析『HyperLogLog 篇』

大数据分析常用去重算法分析『HyperLogLog 篇』 在上篇推送中,Kyligence 大数据工程师陶加涛为大家介绍了利用 Roaring Bitmap 来进行精确去重。虽然这种算法能大大地减少存储开销,但是随着数据量的增大,它依然面临着存储上的压力。在本篇推送中将要介绍的 HyperLogL...

2019-05-09 11:35:44

阅读数 357

评论数 0

开源分布式工作流任务调度系统Easy Scheduler Release 1.0.2发布

Easy Scheduler Release 1.0.2 Easy Scheduler 1.0.2是1.x系列中的第三个版本。此版本增加了调度开放接口、worker分组(指定任务运行的机器组)、任务流程及服务监控以及对oracle、clickhouse等支持,具体如下: 新特性: [EasySc...

2019-04-26 20:08:20

阅读数 298

评论数 0

持续改进中——Easy Scheduler 1.0.1版本来了

持续改进中——Easy Scheduler 1.0.1版本来了 背景 在多位技术小伙伴的努力下,经过近2年的研发迭代、内部业务剥离及重构,也经历一批种子用户试用一段时间后,EasyScheduler终于迎来了第一个正式开源迭代发布版本 – 1.0.1,免编译版本下载地址 – 1.0.1 相信做过...

2019-04-17 10:54:37

阅读数 666

评论数 1

分布式工作流任务调度系统Easy Scheduler正式开源

Easy Scheduler 大数据工作流调度系统已经开源,欢迎下载交流 https://github.com/analysys/EasyScheduler Easy Scheduler for Big Data 设计特点: 一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据...

2019-03-29 23:56:37

阅读数 906

评论数 0

git使用.gitignore忽略提交文件并没有生效问题解决

idea集成git过滤一些不必要提交到git上的文件以及文件夹的时候发现使用.ignore插件创建.gitignore来忽略提交文件并没有生效,每次commit还是带了一堆不必提交的文件,最后找到了处理办法: .gitignore只能忽略那些原来没有被track的文件,如果某些文件已经被纳入了版...

2019-03-28 18:02:06

阅读数 157

评论数 0

Excel表格转换为MarkDown表格工具

功能十分强大:https://tableconvert.com/ 还可以下载下来,真是很棒!

2019-03-18 22:49:49

阅读数 194

评论数 1

留存分析为何要做, 如何做

导读 留存,是指用户在 App、网站等应用上使用过,并一段时间后仍有使用。留存分析模型是一种衡量用户健康度/参与度的方法,超越下载量、DAU 等这样的虚荣指标,深入了解用户的留存和流失状况,发现影响产品可持续增长的关键因素,指导市场决策、产品改进、提升用户价值等等。 ▌留存分析能解决哪些问...

2019-03-16 20:51:53

阅读数 282

评论数 0

易观推出免费版本方舟Argo,同时开源SDK及调度

易观推出了免费版本方舟Argo,Argo是国内唯一的一款免费的可以私有化部署的用户行为分析平台,可以私有化对接自己的各种内部系统,它的商业版本已经在招商银行、当当、首汽等客户大面积使用了。 别人都是免费版到商业版,我们是先做商业版在做靠谱的免费版,初心真的是想把数据能力平民化,同时配合数据采集SD...

2019-03-01 23:02:37

阅读数 856

评论数 0

Apache Curator中的Connection Guarantees(连接保证)

Curator不断监控与ZooKeeper集合的连接。此外,每个操作都包含有重试机制。因此,可以做出以下保证: 每个Curator操作都会好好的等待,直到与ZooKeeper建立连接 每个Curator操作(create,getData等)都保证按照当前设置的重试策略管理连接丢失和会话过期 ...

2019-02-24 23:24:02

阅读数 732

评论数 0

我关注的一些技术微信公众号

AI前线 微信号: ai-front InfoQ 微信号: infoqchina CSDN 微信号: CSDNnews 开源中国 微信号:oschina2013 AI科技大本营 微信号: rgznai100 美团技术团队 (ID:meituantech) Dat...

2019-02-21 15:46:19

阅读数 230

评论数 0

在公有云实现分布式系统上千节点功能测试?Alluxio团队基于Docker的模拟方案和经验总结

01 摘要 对分布式系统进行大规模测试通常是一个昂贵但又必要的流程。由于世界上很多公司和机构都依赖Alluxio技术,我们非常重视Alluxio的测试。因此,我们需要解决的一个问题是如何在不耗尽资源的情况下进行大规模测试。在本博客中,我们将展示Alluxio开源项目的开发维护者如何利用公有云基础设...

2019-02-14 14:13:04

阅读数 831

评论数 0

Mac使用vnc远程登录ubuntu16.04桌面

mac使用vnc远程登录ubuntu16.04桌面 1.安装 在Ubuntu上安装x11vnc,如下: sudo apt-get install x11vnc 2.配置vnc密码 x11vnc -storepasswd 3.启动vnc服务 x11vnc -forever -shared -rfba...

2019-01-23 15:22:00

阅读数 1445

评论数 2

开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)

本文为博主公司原创文章,仿冒必究,转载请回复留言 开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum) 易观CTO 郭炜 序 现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark...

2019-01-21 10:47:05

阅读数 18974

评论数 8

提示
确定要删除当前文章?
取消 删除