自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据之路

专注数据架构 外功修行,内功修神

原创 Apache DolphinScheduler 1.3.2 发布,架构升级,性能提升 2~3 倍

引言 大数据任务调度作为大数据建设中的核心基础设施,在经过社区用户们长期的使用中,不少用户对调度也提出了很多新的要求,为此,Apache DolphinScheduler(Incubating)经过长达 5 个多月的辛苦努力, 终于发布了 1.3.2 正式版本。DolphinScheduler-...

2020-09-10 14:40:58 238 0

原创 美女 Committer 手把手教你部署 Apache DolphinScheduler 单机版

还在为如何部署Apache DolphinScheduler 发愁么?自上篇《美女 Committer 手把手教你使用海豚调度》的视频发布后,受到社区伙伴们的热烈欢迎。但个别小伙伴在部署这块还是遇到了一点儿小麻烦,本次特地再次邀请美女 Committer - 陈兴春为社区录制如何部署 Dolphi...

2020-07-29 19:13:20 631 2

原创 Apache DolphinScheduler(海豚调度) - 1.3 系列核心表结构剖析
原力计划

Apache DolphinScheduler 是一个分布式去中心化,易扩展的可视化 DAG 工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 近日,伯毅同学给社区贡献了工作流核心表结构的剖析文章,非常细致,喜欢的伙伴请转走 1. 工作流总体存储...

2020-07-03 17:10:30 1548 0

原创 大数据工作流任务调度--有向无环图(DAG)之拓扑排序

拓扑排序(Topological Sorting) 维基百科上拓扑排序的定义为: 对于任何有向无环图(DAG)而言,其拓扑排序为其所有结点的一个线性排序(同一个有向图可能存在多个这样的结点排序)。该排序满足这样的条件——对于图中的任意两个结点U和V,若存在一条有向边从U指向V,则在拓扑排序中U一定...

2019-01-20 22:47:02 4261 2

原创 大数据分析的下一代架构--IOTA架构设计实践[下]

IOTA架构提出背景 大数据3.0时代以前,Lambda数据架构成为大数据公司必备的架构,它解决了大数据离线处理和实时数据处理的需求。典型的Lambda架构如下: Lambda架构的核心思想是: 数据从底层的数据源开始,经过各样的格式进入大数据平台,然后分成两条线进行计算。一条线是进入流式计算平...

2018-12-31 20:59:53 3570 0

原创 承载每天10万级任务的数据调度系统的架构是如何设计的

EasyScheduler大数据调度系统架构分享 导语 EasyScheduler是易观平台自主研发的大数据分布式调度系统。主要解决数据研发ETL 错综复杂的依赖关系,而不能直观监控任务健康状态等问题。EasyScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支...

2018-12-13 20:01:57 32686 16

原创 【安全通报】DolphinScheduler 漏洞情况说明及处理

Apache DolphinScheduler 社区邮件列表最近通告了 2 个漏洞,考虑到有很多用户并未订阅此邮件列表,我们特地在此进行情况说明: CVE-2020-11974[1] 漏洞 (CVE-2020-11974[1]) 是与 mysql connectorj 远程执⾏代码漏洞有关,mys...

2020-09-16 10:06:40 117 0

原创 Git下载加速

方法一(推荐) 前期的准备:首先自己将代理开启,系统代理模式改为全局模式 1.设置Git的代理方式 git config --global http.proxy http://127.0.0.1:1080 git config --global https.proxy https://1...

2020-08-26 15:46:32 100 0

原创 Apache DolphinScheduler 诞生记

Apache DolphinScheduler 诞生记 DolphinScheduler,简称”DS”, 中文名 “小海豚调度”(海豚聪明、人性化,又左右脑可互相换班,终生不用睡觉)。希望 DolphinScheduler 就像它的名字一样,成为一个“开箱即用”的灵活易用的调度系统。 1概述 DA...

2020-08-03 18:11:44 1003 0

原创 本周六 Apache DolphinScheduler & Doris 将联合线上 Meetup

活动背景 2020年,大数据成为国家基建的一个重要组成,大数据在越来越多的领域展现威力。随着大数据的应用场景越来越多,大家对数据的响应速度和数据加工工作流的方便程度也提出了更高的要求。在这种背景下,相信做过大数据的技术小伙伴应该对 Apache 一词不会陌生,Apache 基金会旗下拥有被广泛使...

2020-07-21 12:15:53 363 0

原创 金灿灿的季节 - Apache DolphinScheduler收获5位新Committer
原力计划

在这个金灿灿的收获季节,经过ApacheDolphinSchedulerPPMC们的推荐和投票,ApacheDolphinScheduler收获了5位新Committer。他们是:nauu(朱凯)、Rubik-W(温合民)、gabrywu、liwenhe1993、clay4444。对于成为Comm...

2020-05-28 19:07:52 474 0

原创 直播回放:DolphinScheduler 1.3.0新特性与Roadmap路线,700多人在线

Apache DolphinScheduler社区于2020-05-26 19:30进行了社区情况介绍和新特性及Roadmap路线分享,本次线上直播有700多人在线,没来得及观看的伙伴请收看回放呐 具体内容请参见回放地址:【Apache DolphinScheduler新特性及Roadmap】 ...

2020-05-28 11:38:49 663 0

转载 弄明白CMS和G1,就靠这一篇了

在开始介绍CMS和G1前,我们可以剧透几点: 根据不同分代的特点,收集器可能不同。有些收集器可以同时用于新生代和老年代,而有些时候,则需要分别为新生代或老年代选用合适的收集器。一般来说,新生代收集器的收集频率较高,应选用性能高效的收集器;而老年代收集器收集次数相对较少,对空间较为敏感,应当避免选...

2020-04-14 13:38:15 1024 0

转载 使用 DolphinScheduler 调度 Kylin 构建

原创 史少锋@Kyligence apachekylin 前天 01 背景 Apache Kylin 是一个支持海量大数据的在线分析引擎,需要离线或流式地从Apache Hive, Apache Kafka加载数据。通常当上游数据准备好以后,用户需要使用Kylin的Web界面或API触发以生成数据...

2020-02-29 23:09:19 2331 0

原创 Apache DolphinScheduler集群部署方案

集群部署(Cluster) DolphinScheduler集群部署分为后端部署和前端部署两部分: 1、后端部署 1.1 : 基础软件安装(必装项请自行安装) PostgreSQL (8.2.15+) or Mysql (5.6或者5.7系列) : 两者任选其一即可 JDK (1.8+) :...

2020-02-25 12:35:52 1615 0

原创 Apache DolphinScheduler 单机部署方案

单机部署(Standalone) DolphinScheduler单机部署分为后端部署和前端部署两部分: 1、后端部署 1.1 : 基础软件安装(必装项请自行安装) PostgreSQL (8.2.15+) or Mysql (5.6或者5.7系列) : 两者任选其一即可 JDK (1.8+...

2020-02-25 12:32:21 2387 2

原创 Apache DolphinScheduler 1.2.1发布,可视化工作流任务调度系统

Apache DolphinScheduler 1.2.1发布,可视化工作流任务调度系统 ​Apache DolphinScheduler 于2020年2月24日正式发布 1.2.1 版,发布内容如下: 新特性: [#1497] 通过 API 创建的工作流在前端展示时自动调整布局。 [#7...

2020-02-25 12:21:43 3056 4

转载 logback日志配置说明

常用配置说明1: <?xml version="1.0" encoding="UTF-8"?> <!-- scan:当此属性设置为true时,配置文件如果发生改变,将会被重新加载,默认值为true。 scanPeriod:设置监测配置文...

2020-02-01 19:33:20 354 0

翻译 Code Review应该关注哪些点?

Code Review应该关注什么? 注意:当我们考虑以下点时,应当始终遵循Code Review标准。 设计 Code Review中最重要的一个点就是把握住变更中的整体设计。变更中各个部分的代码交互是否正常?整个改动是否属于你负责的代码库?是否和你系统中其他部分交互正常?现在是否是添加整个功能...

2019-12-31 20:48:24 446 0

原创 Error:java: javacTask: source release 8 requires target release 1.8异常处理

Error:java: javacTask: source release 8 requires target release 1.8 编译无问题,运行时报错: 环境: JDK Version: 1.8.0_171 IDE: IntelliJ Idea 2018 IntelliJ SDK Sett...

2019-12-24 16:16:32 343 0

转载 10分钟,快速搞懂RFM用户分析模型

月月针对全量用户上线活动,运营、设计、产品、研发全情投入,好努力却无从追溯效果?预算有限、想策划高ROI方案? 在寻求以上问题的解决办法中,RFM用户价值分层模型一定会上榜,因为它是常见的精细化运营方法论。 RFM客户价值模型是一种有着几十年发展和应用的业务分析模型。通过一个客户的近期购买行为...

2019-12-17 22:17:11 1320 0

原创 Apache ShardingSphere & DolphinScheduler将举行联合meetup

您是否想加入Apache社区并成为某个项目的Committer或PPMC,拥有一个apache邮箱呢? 你是否知道apache社区的Committer也可以是非代码贡献者? 本联合meetup旨在让对开源有兴趣的伙伴们有机会加入到社区中来,成为一份子,让自己的青春热血留下永久痕迹,让自己的代码(或...

2019-11-24 22:44:22 358 0

转载 从开源使用者到Apache PPMC之路

近日, 观远数据联合创始人&首席架构师吴宝琪, 作为Apache DolphinScheduler 的PPMC(项目管理委员会)成员参加了Apache DolphinScheduler 的首届用户大会, 并在大会上做了《从开源使用者到Apache PPMC之路》的分享。 Ap...

2019-11-24 19:54:22 572 0

原创 Apache DolphinScheduler的官网正式上线了

DolphinScheduler的官网正式上线了: https://dolphinscheduler.apache.org , 后续的文档都将直接维护在官网上哈! 特此告知,欢迎关注!

2019-10-14 17:17:01 2394 0

原创 全票通过!易观开源项目DolphinScheduler进入Apache孵化器

全票通过!易观开源项目DolphinScheduler进入Apache孵化器 美国时间2019年8月29日,易观开源的分布式任务调度引擎DolphinScheduler(原EasyScheduler)正式通过顶级开源组织Apache基金会的投票决议,以全票通过的优秀表现正式成为Apache孵...

2019-09-17 07:26:30 4234 2

原创 第三届易观算法大赛 -- OLAP Session分析(5万奖金)

OLAP Session分析 赛题背景 Session,即会话,是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如,一次会话可以包含多个页面浏览、交互事件等。Session 是具备时间属...

2019-09-11 19:35:47 315 0

原创 数据增长之线索培育升级

B2B增长之线索培育升级 数据驱动增长讲的大部分都是如何通过渠道质量优化与转化率优化最大能力去挖掘商机,然而增长不仅有拉新,因为增长负责人要关注的是整体业务增长,比如销售漏斗与客户数,资金流和团队效能等,就数字营销领域来说,增长除了拉新之外,还有很重要的一个指标就是促活,当有一定数量的用户的时候,...

2019-09-04 14:04:32 292 0

原创 Easy Scheduler 1.1.0 Release发布,分布式工作流任务调度系统

Easy Scheduler Release 1.1.0 Easy Scheduler 1.1.0是1.1.x系列中的第一个版本。 新特性: [EasyScheduler-391] run a process under a specified tenement user [EasySchedu...

2019-08-08 08:06:15 910 0

原创 现在Easy Scheduler想贡献给Apache基金会,我们做了一份问卷看下大家的想法,也请大家积极参与,谢谢!

感谢各位伙伴们长期以来的持续关注和贡献,现在Easy Scheduler想贡献给Apache基金会,我们做了一份问卷看下大家的想法,也请大家积极参与,谢谢! https://wj.qq.com/s2/4190958/5588/ 也欢迎大家直接去https://github.com/analysys...

2019-08-02 17:41:16 583 0

原创 分布式工作流任务调度系统 Easy Scheduler 1.1.0 预览版发布

Easy Scheduler Release 1.1.0-Preview Easy Scheduler 1.1.0-Preview是1.x系列中的第六个版本。 新特性: [EasyScheduler-391] run a process under a specified tenement us...

2019-07-16 17:35:44 646 0

原创 分布式任务调度EasyScheduler贡献代码流程

首先从远端仓库https://github.com/analysys/EasyScheduler.git fork一份代码到自己的仓库中 远端仓库中目前有三个分支: master 正常交付分支 发布稳定版本以后,将稳定版本分支的代码合并到master上。 dev 日常开发分支 日...

2019-07-05 11:20:26 1019 0

原创 开源分布式工作流任务调度系统EasyScheduler自定义任务插件开发

任务插件开发 提醒:目前任务插件开发暂不支持热部署 基于SHELL的任务 基于YARN的计算(参见MapReduceTask) 需要在 cn.escheduler.server.worker.task 下的 TaskManager 类中创建自定义任务(也需在TaskType注册对应的任务类型) ...

2019-06-13 17:43:05 850 0

转载 数据分析方法论之常用分析思路

对于一款App来讲,市场渠道人员比较关注渠道的获客质量,经常会用到渠道分析;运营人员比较关注用户在产品内的行为信息,通常会用到用户分群,进行针对性运营;产品人员则关注产品功能的使用情况以及核心流程的转化情况。那么如何实现所有业务人员的数据需求。 我们以有帐号体系产品的注册为核心流程为例,一般产品的...

2019-06-01 23:03:44 952 1

原创 Easy Scheduler 1.0.3 发布,分布式工作流任务调度系统

Easy Scheduler Release 1.0.3 Easy Scheduler 1.0.3是1.x系列中的第四个版本。 新特性: [EasyScheduler-254] 流程定义删除和批量删除 [EasyScheduler-347] 任务依赖增加“今日” [EasyScheduler-2...

2019-05-28 08:26:44 925 1

转载 大数据分析常用去重算法分析『HyperLogLog 篇』

大数据分析常用去重算法分析『HyperLogLog 篇』 在上篇推送中,Kyligence 大数据工程师陶加涛为大家介绍了利用 Roaring Bitmap 来进行精确去重。虽然这种算法能大大地减少存储开销,但是随着数据量的增大,它依然面临着存储上的压力。在本篇推送中将要介绍的 HyperLogL...

2019-05-09 11:35:44 1136 0

原创 开源分布式工作流任务调度系统Easy Scheduler Release 1.0.2发布

Easy Scheduler Release 1.0.2 Easy Scheduler 1.0.2是1.x系列中的第三个版本。此版本增加了调度开放接口、worker分组(指定任务运行的机器组)、任务流程及服务监控以及对oracle、clickhouse等支持,具体如下: 新特性: [EasySc...

2019-04-26 20:08:20 814 0

原创 持续改进中——Easy Scheduler 1.0.1版本来了

持续改进中——Easy Scheduler 1.0.1版本来了 背景 在多位技术小伙伴的努力下,经过近2年的研发迭代、内部业务剥离及重构,也经历一批种子用户试用一段时间后,EasyScheduler终于迎来了第一个正式开源迭代发布版本 – 1.0.1,免编译版本下载地址 – 1.0.1 相信做过...

2019-04-17 10:54:37 1475 1

原创 分布式工作流任务调度系统Easy Scheduler正式开源

Easy Scheduler 大数据工作流调度系统已经开源,欢迎下载交流 https://github.com/analysys/EasyScheduler Easy Scheduler for Big Data 设计特点: 一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据...

2019-03-29 23:56:37 3113 1

原创 git使用.gitignore忽略提交文件并没有生效问题解决

idea集成git过滤一些不必要提交到git上的文件以及文件夹的时候发现使用.ignore插件创建.gitignore来忽略提交文件并没有生效,每次commit还是带了一堆不必提交的文件,最后找到了处理办法: .gitignore只能忽略那些原来没有被track的文件,如果某些文件已经被纳入了版...

2019-03-28 18:02:06 2165 0

原创 Excel表格转换为MarkDown表格工具

功能十分强大:https://tableconvert.com/ 还可以下载下来,真是很棒!

2019-03-18 22:49:49 1780 2

提示
确定要删除当前文章?
取消 删除