数据之路

专注数据架构 外功修行,内功修神
私信 关注
代立冬
码龄9年

StayHungryStayFoolish外功修行内功修神

  • 1,299,957
    被访问量
  • 193
    原创文章
  • 3,055
    作者排名
  • 763
    粉丝数量
  • 于 2012-06-13 加入CSDN
获得成就
  • 博客专家认证
  • 获得333次点赞
  • 内容获得202次评论
  • 获得546次收藏
荣誉勋章
兴趣领域
  • #大数据
    #spark
TA的专栏
  • 大数据任务调度
    12篇
  • 数据湖
  • 大数据实战系列
    12篇
  • 数据分析
    14篇
  • ●架构设计
    24篇
  • --------【IOTA架构】
    3篇
  • --------【大数据任务调度架构】
    12篇
  • ● Hadoop
    36篇
  • --------【Hadoop线上异常】
    16篇
  • --------【Hadoop安全】
    2篇
  • --------【Hadoop】
    11篇
  • --------【Hadoop优化】
    4篇
  • ●Alluxio
    2篇
  • ●HBase
    12篇
  • --------【HBase线上异常】
    6篇
  • --------【HBase源码】
    2篇
  • --------【HBase优化】
    4篇
  • ●数据仓库
    24篇
  • --------【数据仓库】
    14篇
  • --------【Hive】
    12篇
  • ●数据传输
    10篇
  • --------【Flume】
    1篇
  • --------【KafKa】
    9篇
  • ●Olap即时分析
    14篇
  • --------【Spark】
    6篇
  • --------【Druid】
    2篇
  • --------【Spark经验】
    1篇
  • ●Zookeeper
    7篇
  • --------【Zookeeper源码】
    1篇
  • ●机器学习
    4篇
  • ●深度学习
    10篇
  • --------【TensorFlow系列】
    6篇
  • --------【Keras】
    2篇
  • ●数据库
    16篇
  • --------【Mysql】
    10篇
  • --------【Mongodb】
    4篇
  • --------【Redis】
    2篇
  • ●性能分析
    8篇
  • --------【性能分析】
    6篇
  • --------【线程】
    3篇
  • ●基础
    15篇
  • --------【数学】
  • --------【数据结构和算法】
    5篇
  • --------【设计模式】
    1篇
  • --------【linux基础】
    18篇
  • --------【网络】
    6篇
  • --------【Java】
    10篇
  • --------【Python】
    1篇
  • ●工作效率
    6篇
  • ●Google论文系列
    2篇
  • ●业务
    7篇
  • --------【广告dsp】
    1篇
  • --------【营销】
    1篇
  • --------【零售业】
    1篇
  • ●数据分析
    17篇
  • ●管理
    4篇
  • ●工具
    9篇
  • ●生活类
    5篇
  • 实战
    1篇
新一代开源大数据调度-DolphinScheduler
大数据任务调度-DolphinScheduler(原EasyScheduler) Apache DolphinScheduler(原EasyScheduler)是一个可视化的分布式工作流任务调度系统,主要解决大数据任务间中错综复杂的依赖关系,使整个数据处理过程直观可见。 Apache DolphinScheduler以有向无环图(DAG)的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。

DolphinScheduler在线demo: >>在线demo

> 加微信用户群:
6群已满,7群开放,欢迎添加微信号:easyworkflow 或扫二维码
海豚调度在线试用
也欢迎关注海豚调度公众号,搜 " 海豚调度 " 或扫下方二维码即可
海豚调度在线试用
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

花一分钟体验大数据任务调度系统 - Apache DolphinScheduler 第一个官方 Docker 镜像

新一代大数据任务调度 - Apache DolphinScheduler(incubator) 在近期发布了其第一个官方 Docker 镜像。下面就带大家来快速试用 DolphinScheduler官方推荐以 docker-compose 的方式启动,这种方式需要先安装 docker-compose , docker-compose 的安装网上已经有非常多的资料,请自行安装即可。1、下载源码 zip 包- 请下载最新版本的源码包并进行解压# 创建源码存放目录mkdir -p /opt...
原创
222阅读
1评论
1点赞
发布博客于 1 月前

如何在线试用Demo?

请扫下方微信即可

除可以试用在线 Demo 外,Apache DolphinScheduler 官方公众号上有各种部署、使用及原理源码分析视频,欢迎还没关注的小伙伴关注吆

1回答
发布问题于 1 月前

新一代大数据任务调度系统 - Apache DolphinScheduler 1.3.4 发布,推荐下载

|本文编辑:朱桐新一代大数据任务调度 - Apache DolphinScheduler(incubator) 在经过社区 30 多位小伙伴的贡献与努力下于发布了 1.3.4 版本,1.3.4 作为 1.3.x 的 bug 修复版本,本次共修复了 1.3.3 发现的 10 多处 bug,其中多数 bug 是测试伙伴在极端环境下发现的。1.3.4 重要的修复需要关注下面这个:1个重要修复现象:任务实例(taskInstance)状态更改错误:[#4084][server] fix tas...
原创
157阅读
0评论
1点赞
发布博客于 1 月前

【喜讯】Apache DolphinScheduler 荣获 “2020 年度十大开源新锐项目”

经 10000+ 开发者公开票选,20+专家评审、10+ 主编团打分,历经数月打磨,11 月 19 日,由InfoQ 发起并组织的【2020中国技术力量年度榜单评选】结果正式揭晓。2020 年度十大开源新锐项目、2020 年度十大开源杰出贡献人物、2020 年度十大云原生创新技术方案以及 2020 年度十大云原生行业落地典范四大榜单,其中 2020 年度十大开源新锐项目囊括了最近三年内,开源领域活跃度最高、最具创新性和发展潜质的项目,年度开源新锐项目评选受欢迎程度更是成为四大榜单之最。Apa...
转载
212阅读
0评论
2点赞
发布博客于 3 月前

成为 Apache 贡献者,So easy!

1 缘起大概是今年4月份的时候,忽然间看到ShardingSphere毕业的消息,其中也顺带提到了我们的主角DolpshinScheduler,于是去Github看了看,堆积的PR不多,在Apache孵化器中的JAVA项目中活跃度居然排行第一!对于我来讲,活跃度是我判断社区是否能够长久发展的一个很重要的因素,也是决定我是否要参与到贡献中来的一个点,我参与的apache项目也是有好几个了,也有遇到过那种PR堆积特别多,提交了PR长久没人review,...
原创
312阅读
4评论
2点赞
发布博客于 4 月前

Eights同学一直在引领潮流:如何在CDH5上部署Dolphin Scheduler 1.3.1 https://mp.weixin.qq.com/s/2X_dawuUEYkeOdP8ql1dmg

 
发布Blink于 5 月前

【安全通报】DolphinScheduler 漏洞情况说明及处理

Apache DolphinScheduler 社区邮件列表最近通告了 2 个漏洞,考虑到有很多用户并未订阅此邮件列表,我们特地在此进行情况说明:CVE-2020-11974[1]漏洞 (CVE-2020-11974[1]) 是与 mysql connectorj 远程执⾏代码漏洞有关,mysql connectorj 漏洞详情请参见:https://securityonline.info/mysql-connectorj-remote-code-execution-vulnerability/
原创
369阅读
0评论
0点赞
发布博客于 5 月前

大数据任务调度-Apache DolphinScheduler社区已经近4000人了,

 
发布Blink于 5 月前

Apache DolphinScheduler 1.3.2 发布,架构升级,性能提升 2~3 倍

引言大数据任务调度作为大数据建设中的核心基础设施,在经过社区用户们长期的使用中,不少用户对调度也提出了很多新的要求,为此,Apache DolphinScheduler(Incubating)经过长达 5 个多月的辛苦努力, 终于发布了 1.3.2 正式版本。DolphinScheduler-1.3.2 有超过 30 名贡献者参与开发,性能较 1.2 版本有 2 ~ 3 倍的提升,相对 1.2 版本,1.3.x 增加了诸如 K8s支持、多目录管理等重要的新特性和新的任务类型。1.3.x 重要的改动如下.
原创
1234阅读
0评论
1点赞
发布博客于 5 月前

Git下载加速

方法一(推荐)前期的准备:首先自己将代理开启,系统代理模式改为全局模式1.设置Git的代理方式git config --global http.proxy http://127.0.0.1:1080git config --global https.proxy https://127.0.0.1:1080git config --global http.proxy 'socks5://127.0.0.1:1080' git config --global https.proxy '
原创
249阅读
0评论
0点赞
发布博客于 6 月前

Apache DolphinScheduler 诞生记

Apache DolphinScheduler 诞生记DolphinScheduler,简称”DS”, 中文名 “小海豚调度”(海豚聪明、人性化,又左右脑可互相换班,终生不用睡觉)。希望 DolphinScheduler 就像它的名字一样,成为一个“开箱即用”的灵活易用的调度系统。1概述DAG 全称Directed Acyclic Graph,简称DAG。工作流中的Task任务以有向无环图的形式组装起来,从入度为零的节点进行拓扑遍历,直到无后继节点为止。Apache DolphinScheduler
原创
1693阅读
0评论
1点赞
发布博客于 6 月前

美女 Committer 手把手教你部署 Apache DolphinScheduler 单机版

还在为如何部署Apache DolphinScheduler 发愁么?自上篇《美女 Committer 手把手教你使用海豚调度》的视频发布后,受到社区伙伴们的热烈欢迎。但个别小伙伴在部署这块还是遇到了一点儿小麻烦,本次特地再次邀请美女 Committer - 陈兴春为社区录制如何部署 DolphinScheduler 单机版本,之所以是单机版本,是因为想让大家能够尽快感受 DolphinScheduler 的能力,让小白也可以轻松部署 DS ,充分贯彻 DolphinScheduler 的 Slogan:调
原创
822阅读
2评论
1点赞
发布博客于 7 月前

本周六 Apache DolphinScheduler & Doris 将联合线上 Meetup

活动背景 2020年,大数据成为国家基建的一个重要组成,大数据在越来越多的领域展现威力。随着大数据的应用场景越来越多,大家对数据的响应速度和数据加工工作流的方便程度也提出了更高的要求。在这种背景下,相信做过大数据的技术小伙伴应该对 Apache 一词不会陌生,Apache 基金会旗下拥有被广泛使用的众多开源软件,本次特地邀请到 2 个本土的 Apache 大数据应用项目的开发者来一起分享解决数据响应速度和数据工作流任务调度方面的开源技术,一起为中国开源献力。Apache Doris(Incubating
原创
718阅读
0评论
0点赞
发布博客于 7 月前

Apache DolphinScheduler(海豚调度) - 1.3 系列核心表结构剖析

Apache DolphinScheduler 是一个分布式去中心化,易扩展的可视化 DAG 工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。近日,伯毅同学给社区贡献了工作流核心表结构的剖析文章,非常细致,喜欢的伙伴请转走1. 工作流总体存储结构在 dolphinscheduler 库中创建的所有工作流定义(模板)都保存在 t_ds_process_definition 表中.该数据库表结构如下表所示:序号字段类型描述1id
原创
3685阅读
0评论
3点赞
发布博客于 7 月前

金灿灿的季节 - Apache DolphinScheduler收获5位新Committer

在这个金灿灿的收获季节,经过ApacheDolphinSchedulerPPMC们的推荐和投票,ApacheDolphinScheduler收获了5位新Committer。他们是:nauu(朱凯)、Rubik-W(温合民)、gabrywu、liwenhe1993、clay4444。对于成为Committer,小伙伴们说道:朱凯:非常荣幸能够成为DolphinSchedule的Committer。这既是一份喜悦,也是一份责任。我将以终为始,继续打怪升级,助力DS早日毕业...
原创
600阅读
0评论
1点赞
发布博客于 9 月前

直播回放:DolphinScheduler 1.3.0新特性与Roadmap路线,700多人在线

Apache DolphinScheduler社区于2020-05-26 19:30进行了社区情况介绍和新特性及Roadmap路线分享,本次线上直播有700多人在线,没来得及观看的伙伴请收看回放呐具体内容请参见回放地址:【Apache DolphinScheduler新特性及Roadmap】DolphinScheduler(Incubating) 1.3.0新特性及Roadmap路线直播内容介绍本次直播主要包括以下内容:1、DolphinScheduler社区情况介绍2、缘何.
原创
762阅读
0评论
2点赞
发布博客于 9 月前

弄明白CMS和G1,就靠这一篇了

在开始介绍CMS和G1前,我们可以剧透几点:根据不同分代的特点,收集器可能不同。有些收集器可以同时用于新生代和老年代,而有些时候,则需要分别为新生代或老年代选用合适的收集器。一般来说,新生代收集器的收集频率较高,应选用性能高效的收集器;而老年代收集器收集次数相对较少,对空间较为敏感,应当避免选择基于复制算法的收集器。 在垃圾收集执行的时刻,应用程序需要暂停运行。 可以串行收集,也可以并行收...
转载
1343阅读
0评论
0点赞
发布博客于 10 月前

使用 DolphinScheduler 调度 Kylin 构建

原创 史少锋@Kyligence apachekylin 前天01 背景Apache Kylin 是一个支持海量大数据的在线分析引擎,需要离线或流式地从Apache Hive, Apache Kafka加载数据。通常当上游数据准备好以后,用户需要使用Kylin的Web界面或API触发以生成数据加载的任务。为了让整个工作流自动化起来,需要结合一些任务调度平台,如Oozie,Linux cront...
转载
3537阅读
0评论
1点赞
发布博客于 1 年前

Apache DolphinScheduler集群部署方案

集群部署(Cluster)DolphinScheduler集群部署分为后端部署和前端部署两部分:1、后端部署1.1 : 基础软件安装(必装项请自行安装)PostgreSQL (8.2.15+) or Mysql (5.6或者5.7系列) : 两者任选其一即可JDK (1.8+) : 必装,请安装好后在/etc/profile下配置 JAVA_HOME 及 PATH 变量ZooK...
原创
2125阅读
0评论
2点赞
发布博客于 1 年前

Apache DolphinScheduler 单机部署方案

单机部署(Standalone)DolphinScheduler单机部署分为后端部署和前端部署两部分:1、后端部署1.1 : 基础软件安装(必装项请自行安装)PostgreSQL (8.2.15+) or Mysql (5.6或者5.7系列) : 两者任选其一即可JDK (1.8+) : 必装,请安装好后在/etc/profile下配置 JAVA_HOME 及 PATH 变量Z...
原创
3319阅读
2评论
1点赞
发布博客于 1 年前

Apache DolphinScheduler 1.2.1发布,可视化工作流任务调度系统

Apache DolphinScheduler 1.2.1发布,可视化工作流任务调度系统​Apache DolphinScheduler 于2020年2月24日正式发布 1.2.1 版,发布内容如下:新特性:[#1497] 通过 API 创建的工作流在前端展示时自动调整布局。 [#747] Worker server 运行日志脱敏。 [#1635] 配置文件适当合并。 [#154...
原创
3525阅读
4评论
3点赞
发布博客于 1 年前

logback日志配置说明

常用配置说明1:<?xml version="1.0" encoding="UTF-8"?><!--scan:当此属性设置为true时,配置文件如果发生改变,将会被重新加载,默认值为true。scanPeriod:设置监测配置文件是否有修改的时间间隔,如果没有给出时间单位,默认单位是毫秒当scan为true时,此属性生效。默认的时间间隔为1分钟。debug:当此属性...
转载
586阅读
0评论
0点赞
发布博客于 1 年前
java8新特性,你有用起来了吗?(精编)
发布Blink于 1 年前

社区伙伴贡献了DolphinScheduler的Ambari插件,非常棒,为让更多伙伴用上,简化部署一直在进行……

发布Blink于 1 年前

2020年Apache DolphinScheduler Meetup去哪些个城市?欢迎投票😄

发布Blink于 1 年前

Code Review应该关注哪些点?

Code Review应该关注什么?注意:当我们考虑以下点时,应当始终遵循Code Review标准。设计Code Review中最重要的一个点就是把握住变更中的整体设计。变更中各个部分的代码交互是否正常?整个改动是否属于你负责的代码库?是否和你系统中其他部分交互正常?现在是否是添加整个功能的恰当时间?功能性开发者在这个变更中想做什么? 开发人员打算为该代码的用户带来什么好处?(这里”用...
翻译
566阅读
0评论
0点赞
发布博客于 2 年前

Error:java: javacTask: source release 8 requires target release 1.8异常处理

Error:java: javacTask: source release 8 requires target release 1.8编译无问题,运行时报错:环境:JDK Version: 1.8.0_171IDE: IntelliJ Idea 2018IntelliJ SDK Setting解决:1、将Target Bytecode Version设为1.8 。2、如果项目使用...
原创
400阅读
0评论
0点赞
发布博客于 2 年前

10分钟,快速搞懂RFM用户分析模型

月月针对全量用户上线活动,运营、设计、产品、研发全情投入,好努力却无从追溯效果?预算有限、想策划高ROI方案?在寻求以上问题的解决办法中,RFM用户价值分层模型一定会上榜,因为它是常见的精细化运营方法论。RFM客户价值模型是一种有着几十年发展和应用的业务分析模型。通过一个客户的近期购买行为(R)、购买的总体频率(F)以及消费总金额(M)三项指标来描述该客户的价值状况,依据这三项指标划分为6...
转载
2708阅读
0评论
0点赞
发布博客于 2 年前

Apache ShardingSphere & DolphinScheduler将举行联合meetup

您是否想加入Apache社区并成为某个项目的Committer或PPMC,拥有一个apache邮箱呢?你是否知道apache社区的Committer也可以是非代码贡献者?本联合meetup旨在让对开源有兴趣的伙伴们有机会加入到社区中来,成为一份子,让自己的青春热血留下永久痕迹,让自己的代码(或者文档、或者issue等)才华绽放出璀璨的光芒!活动介绍如今,开源在中国遍地开花,开源之势不可挡,...
原创
412阅读
0评论
0点赞
发布博客于 2 年前

从开源使用者到Apache PPMC之路

近日, 观远数据联合创始人&首席架构师吴宝琪, 作为Apache DolphinScheduler 的PPMC(项目管理委员会)成员参加了Apache DolphinScheduler 的首届用户大会, 并在大会上做了《从开源使用者到Apache PPMC之路》的分享。Apache软件基金会创建于1999年,是专门为支持开源软件项目而创办的一个非营利性组织,也是世界上最...
转载
715阅读
0评论
2点赞
发布博客于 2 年前

Apache DolphinScheduler的官网正式上线了

DolphinScheduler的官网正式上线了: https://dolphinscheduler.apache.org , 后续的文档都将直接维护在官网上哈!特此告知,欢迎关注!
原创
2594阅读
0评论
1点赞
发布博客于 2 年前

全票通过!易观开源项目DolphinScheduler进入Apache孵化器

全票通过!易观开源项目DolphinScheduler进入Apache孵化器美国时间2019年8月29日,易观开源的分布式任务调度引擎DolphinScheduler(原EasyScheduler)正式通过顶级开源组织Apache基金会的投票决议,以全票通过的优秀表现正式成为Apache孵化器项目!根据Apache基金会邮件列表显示,在包含11个约...
原创
4635阅读
2评论
3点赞
发布博客于 2 年前

第三届易观算法大赛 -- OLAP Session分析(5万奖金)

OLAP Session分析赛题背景 Session,即会话,是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如,一次会话可以包含多个页面浏览、交互事件等。Session 是具备时间属...
原创
380阅读
0评论
0点赞
发布博客于 2 年前

数据增长之线索培育升级

B2B增长之线索培育升级数据驱动增长讲的大部分都是如何通过渠道质量优化与转化率优化最大能力去挖掘商机,然而增长不仅有拉新,因为增长负责人要关注的是整体业务增长,比如销售漏斗与客户数,资金流和团队效能等,就数字营销领域来说,增长除了拉新之外,还有很重要的一个指标就是促活,当有一定数量的用户的时候,促活的力量要大于拉新,如果我们把新用户与老用户的生命周期价值拉成时间线,会发现随着时间的推移,新用户会...
原创
341阅读
0评论
0点赞
发布博客于 2 年前

Easy Scheduler 1.1.0 Release发布,分布式工作流任务调度系统

Easy Scheduler Release 1.1.0Easy Scheduler 1.1.0是1.1.x系列中的第一个版本。新特性:[EasyScheduler-391] run a process under a specified tenement user[EasyScheduler-288] Feature/qiye_weixin[EasyScheduler-189] Ke...
原创
956阅读
0评论
3点赞
发布博客于 2 年前

现在Easy Scheduler想贡献给Apache基金会,我们做了一份问卷看下大家的想法,也请大家积极参与,谢谢!

感谢各位伙伴们长期以来的持续关注和贡献,现在Easy Scheduler想贡献给Apache基金会,我们做了一份问卷看下大家的想法,也请大家积极参与,谢谢!https://wj.qq.com/s2/4190958/5588/也欢迎大家直接去https://github.com/analysys/EasyScheduler/issues/638 进行投票...
原创
633阅读
0评论
0点赞
发布博客于 2 年前

分布式工作流任务调度系统 Easy Scheduler 1.1.0 预览版发布

Easy Scheduler Release 1.1.0-PreviewEasy Scheduler 1.1.0-Preview是1.x系列中的第六个版本。新特性:[EasyScheduler-391] run a process under a specified tenement user[EasyScheduler-288] Feature/qiye_weixin[EasySch...
原创
700阅读
0评论
0点赞
发布博客于 2 年前

GIAC架构大会-承载每天万级任务的调度系统架构是如何设计的.pdf

承载每天万级任务的调度系统架构是如何设计的 分布式任务调度系统如何设计? 开源分布式任务调度系统介绍
pdf
发布资源于 2 年前

分布式任务调度EasyScheduler贡献代码流程

首先从远端仓库https://github.com/analysys/EasyScheduler.git fork一份代码到自己的仓库中远端仓库中目前有三个分支:master 正常交付分支发布稳定版本以后,将稳定版本分支的代码合并到master上。dev 日常开发分支日常dev开发分支,新提交的代码都可以pull request到这个分支上。branch-1....
原创
1189阅读
0评论
1点赞
发布博客于 2 年前

开源分布式工作流任务调度系统EasyScheduler自定义任务插件开发

任务插件开发提醒:目前任务插件开发暂不支持热部署基于SHELL的任务基于YARN的计算(参见MapReduceTask)需要在 cn.escheduler.server.worker.task 下的 TaskManager 类中创建自定义任务(也需在TaskType注册对应的任务类型)需要继承cn.escheduler.server.worker.task 下的 AbstractYar...
原创
940阅读
0评论
2点赞
发布博客于 2 年前

数据分析方法论之常用分析思路

对于一款App来讲,市场渠道人员比较关注渠道的获客质量,经常会用到渠道分析;运营人员比较关注用户在产品内的行为信息,通常会用到用户分群,进行针对性运营;产品人员则关注产品功能的使用情况以及核心流程的转化情况。那么如何实现所有业务人员的数据需求。我们以有帐号体系产品的注册为核心流程为例,一般产品的注册流程为:输入手机号 -> 获取验证码 -> 输入验证码 -> 点击注册 -&g...
转载
1039阅读
1评论
0点赞
发布博客于 2 年前

Easy Scheduler 1.0.3 发布,分布式工作流任务调度系统

Easy Scheduler Release 1.0.3Easy Scheduler 1.0.3是1.x系列中的第四个版本。新特性:[EasyScheduler-254] 流程定义删除和批量删除[EasyScheduler-347] 任务依赖增加“今日”[EasyScheduler-273]sql任务添加title[EasyScheduler-247]API在线文档[EasySch...
原创
975阅读
1评论
1点赞
发布博客于 2 年前

大数据分析常用去重算法分析『HyperLogLog 篇』

大数据分析常用去重算法分析『HyperLogLog 篇』在上篇推送中,Kyligence 大数据工程师陶加涛为大家介绍了利用 Roaring Bitmap 来进行精确去重。虽然这种算法能大大地减少存储开销,但是随着数据量的增大,它依然面临着存储上的压力。在本篇推送中将要介绍的 HyperLogLog(下称 HLL)是一种非精确的去重算法,它的特点是具有非常优异的空间复杂度(几乎可以达到常数级别)...
转载
1309阅读
0评论
0点赞
发布博客于 2 年前

开源分布式工作流任务调度系统Easy Scheduler Release 1.0.2发布

Easy Scheduler Release 1.0.2Easy Scheduler 1.0.2是1.x系列中的第三个版本。此版本增加了调度开放接口、worker分组(指定任务运行的机器组)、任务流程及服务监控以及对oracle、clickhouse等支持,具体如下:新特性:[EasyScheduler-79] 调度通过token方式对外开放接口,可以通过api进行操作[EasySche...
原创
870阅读
0评论
0点赞
发布博客于 2 年前

持续改进中——Easy Scheduler 1.0.1版本来了

持续改进中——Easy Scheduler 1.0.1版本来了背景在多位技术小伙伴的努力下,经过近2年的研发迭代、内部业务剥离及重构,也经历一批种子用户试用一段时间后,EasyScheduler终于迎来了第一个正式开源迭代发布版本 – 1.0.1,免编译版本下载地址 – 1.0.1相信做过数据处理的伙伴们对开源的调度系统如oozie、azkaban、airflow应该都不陌生,在使用这些调...
原创
1528阅读
1评论
0点赞
发布博客于 2 年前

分布式工作流任务调度系统Easy Scheduler正式开源

Easy Scheduler大数据工作流调度系统已经开源,欢迎下载交流 https://github.com/analysys/EasySchedulerEasy Scheduler for Big Data设计特点: 一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。其主要目标如下:以DAG图的方...
原创
3418阅读
1评论
2点赞
发布博客于 2 年前

git使用.gitignore忽略提交文件并没有生效问题解决

idea集成git过滤一些不必要提交到git上的文件以及文件夹的时候发现使用.ignore插件创建.gitignore来忽略提交文件并没有生效,每次commit还是带了一堆不必提交的文件,最后找到了处理办法:.gitignore只能忽略那些原来没有被track的文件,如果某些文件已经被纳入了版本管理中,则修改.gitignore是无效的。那么解决方法就是先把本地缓存删除(改变成未track状态...
原创
2407阅读
0评论
1点赞
发布博客于 2 年前

Excel表格转换为MarkDown表格工具

功能十分强大:https://tableconvert.com/还可以下载下来,真是很棒!
原创
1990阅读
2评论
0点赞
发布博客于 2 年前

留存分析为何要做, 如何做

导读留存,是指用户在 App、网站等应用上使用过,并一段时间后仍有使用。留存分析模型是一种衡量用户健康度/参与度的方法,超越下载量、DAU 等这样的虚荣指标,深入了解用户的留存和流失状况,发现影响产品可持续增长的关键因素,指导市场决策、产品改进、提升用户价值等等。▌留存分析能解决哪些问题?1、上个月做了一次产品迭代,如何评估其效果?是否完成了产品经理期望完成的行为?2、作为一个...
原创
1925阅读
0评论
1点赞
发布博客于 2 年前

易观推出免费版本方舟Argo,同时开源SDK及调度

易观推出了免费版本方舟Argo,Argo是国内唯一的一款免费的可以私有化部署的用户行为分析平台,可以私有化对接自己的各种内部系统,它的商业版本已经在招商银行、当当、首汽等客户大面积使用了。别人都是免费版到商业版,我们是先做商业版在做靠谱的免费版,初心真的是想把数据能力平民化,同时配合数据采集SDK开源和支持多活分布式的ETL调度工具开源,让更多的人可以把数据用起来。在筹划的时候,公司也没有指望能...
原创
2679阅读
0评论
2点赞
发布博客于 2 年前

Apache Curator中的Connection Guarantees(连接保证)

Curator不断监控与ZooKeeper集合的连接。此外,每个操作都包含有重试机制。因此,可以做出以下保证:每个Curator操作都会好好的等待,直到与ZooKeeper建立连接 每个Curator操作(create,getData等)都保证按照当前设置的重试策略管理连接丢失和会话过期 如果连接暂时丢失,Curator将尝试重试该操作,直到按照当前设置的重试策略成功 所有Curator...
原创
1538阅读
0评论
2点赞
发布博客于 2 年前

我关注的一些技术微信公众号

AI前线 微信号: ai-frontInfoQ 微信号: infoqchinaCSDN 微信号: CSDNnews开源中国 微信号:oschina2013AI科技大本营 微信号: rgznai100 美团技术团队 (ID:meituantech)DataFunTalk 微信号: datafuntalkHadoop技术博文 微信号: iteblog_...
原创
704阅读
0评论
0点赞
发布博客于 2 年前

在公有云实现分布式系统上千节点功能测试?Alluxio团队基于Docker的模拟方案和经验总结

01 摘要对分布式系统进行大规模测试通常是一个昂贵但又必要的流程。由于世界上很多公司和机构都依赖Alluxio技术,我们非常重视Alluxio的测试。因此,我们需要解决的一个问题是如何在不耗尽资源的情况下进行大规模测试。在本博客中,我们将展示Alluxio开源项目的开发维护者如何利用公有云基础设施以经济高效的方式构建和测试我们的系统。我们将Alluxio与流行的计算框架(如Spark和Hive)...
转载
1186阅读
0评论
2点赞
发布博客于 2 年前

Mac使用vnc远程登录ubuntu16.04桌面

mac使用vnc远程登录ubuntu16.04桌面1.安装在Ubuntu上安装x11vnc,如下:sudo apt-get install x11vnc2.配置vnc密码x11vnc -storepasswd3.启动vnc服务x11vnc -forever -shared -rfbauth ~/.vnc/passwd最好后台执行4.在mac上安装vnc viewer,安装好后,在...
原创
14485阅读
2评论
2点赞
发布博客于 2 年前

开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)

本文为博主公司原创文章,仿冒必究,转载请回复留言开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)易观CTO 郭炜 序现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark实战营出品的开源Olap引擎测评报告,团队选取了Hive、Sparksql、Presto、Impala...
原创
33817阅读
36评论
12点赞
发布博客于 2 年前

大数据工作流任务调度--有向无环图(DAG)之拓扑排序

拓扑排序(Topological Sorting)维基百科上拓扑排序的定义为:对于任何有向无环图(DAG)而言,其拓扑排序为其所有结点的一个线性排序(同一个有向图可能存在多个这样的结点排序)。该排序满足这样的条件——对于图中的任意两个结点U和V,若存在一条有向边从U指向V,则在拓扑排序中U一定出现在V前面。通俗来讲:拓扑排序是一个有向无环图(DAG)的所有顶点的线性序列, 该序列必须满足两个...
原创
4955阅读
2评论
4点赞
发布博客于 2 年前

2019.01.12 Presto中国区用户线下Meetup

2019.01.12号,我们邀请Presto原创团队莅临中国,带来关于Presto的最新feature和roadmap动态,也邀请国内的Presto前沿公司兄弟分享实践干货,期待各位朋友的参加:活动地点:北京 朝阳区绿地中心B座10层 盖亚互娱 乌月神殿活动时间:2019年1月12日 14:00 ~ 2019年1月12日 17:30活动议程:议程一 14:00-14:30 Introdu...
原创
857阅读
0评论
0点赞
发布博客于 2 年前

HDFS中的内存存储支持

因工作中olap场景中对性能的极致要求,我们将部分业务数据的hdfs路径的存储策略设置为放在内存中(RAM_DISK)中,这是在hadoop2.6以后的版本支持的。抽空翻译了官网的文章HDFS中的内存存储支持介绍 管理员配置 限制副本使用的内存 在数据节点上设置RAM磁盘 选择tmpfs(vs ramfs) 挂载RAM磁盘 使用RAM_DISK存储类型标记tmpfs卷 ...
原创
2605阅读
3评论
2点赞
发布博客于 2 年前

如何建立数据思维

数据思维是新手和老手的分界线(之一)作为数据PM,不管是初入行还是处于打怪中间态,都需要建立数据思维,从实战经验来看,数据思维也是区分一般数据PM和高阶数据PM的分界线之一。我刚入行时,做广告商业产品,遇到一个case让我见识到了产品老大的数据思维。对于广告部门而言,收入是KPI,每天的广告收入是老大重点关注的指标,老大的功力在于能从整体的收入下降不断递进反推快速命中下降的原因。当天的真实情况是...
转载
1078阅读
0评论
0点赞
发布博客于 2 年前

如何定义数据指标

数据指标的定义,是培养数据思维要闯的第一道关。比如常见的以下指标定义:1、激活,如何定义一个激活?下载、安装并打开APP的用户数?我们暂且这么定义。根据定义,下载没安装或者安装没打开的用户,都不计入激活。只有完成所有步骤的用户才算。但是问题来了,一个用户下载、安装并打开APP时,根本没登录,他只是一个游客。激活的定义变成:下载、安装并打开APP的游客数。如果我们把这个定义交给开发,开发可能...
转载
1605阅读
1评论
0点赞
发布博客于 2 年前

大数据分析的下一代架构--IOTA架构设计实践[下]

IOTA架构提出背景大数据3.0时代以前,Lambda数据架构成为大数据公司必备的架构,它解决了大数据离线处理和实时数据处理的需求。典型的Lambda架构如下:Lambda架构的核心思想是:数据从底层的数据源开始,经过各样的格式进入大数据平台,然后分成两条线进行计算。一条线是进入流式计算平台,去计算实时的一些指标;另一条线进入批量数据处理离线计算平台,去计算T+1的相关业务指标,这些指标需...
原创
3965阅读
0评论
5点赞
发布博客于 3 年前

spark-submit时上传spark依赖到hdfs时间较长问题解决

spark-submit时,发现上传spark依赖到hdfs 时间长达数分钟,现象如下方截图:这个日志之后在上传程序依赖的jar,根据不同网络负荷,需要耗时数十秒甚至数分钟,导致任务提交速度超级慢,在官网上查到出现这种现象的原因:https://spark.apache.org/docs/2.1.1/running-on-yarn.html翻译过来就是: 要想在yarn spark...
原创
1620阅读
0评论
1点赞
发布博客于 3 年前

spark-submit时上传spark依赖到hdfs时间较长问题解决

spark-submit时,发现上传spark依赖到hdfs 时间长达数分钟,现象如下方截图:这个日志之后在上传程序依赖的jar,根据不同网络负荷,需要耗时数十秒甚至数分钟,导致任务提交速度超级慢,在官网上查到出现这种现象的原因:https://spark.apache.org/docs/2.1.1/running-on-yarn.html翻译过来就是: 要想在yarn spark...
原创
1620阅读
0评论
1点赞
发布博客于 3 年前

数据分析指标名词解释

数据分析指标名词解释名词解释维度指人们分析事物的角度。比如,分析活跃用户,可以从时间的维度,也可以从地域的维度去看,也可以时间、地域两个维度组合去分析。 有层次关系的维度,就可以根据分析需求改变维的层次,变换分析的粒度钻取,比如分析活跃用户,从地域这个维度类型上,可以细分到省份、城市、县、乡镇的用户,也可以向上汇总。 不同维度有些是相互独立的,比如时间维度和地域维度;但有些维度是有层次...
原创
1844阅读
1评论
3点赞
发布博客于 3 年前

图解机器学习

图解机器学习 每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的,这里我推荐SAS的Li Hui的这篇博客,讲述了如何选择机器学习的各种方法。 另外,Scikit-learn 也提供了一幅清晰的路线图给大家选择:其实机器学习的基本算法都很简单,下面我们就利用二维数据和交互...
转载
1520阅读
0评论
5点赞
发布博客于 3 年前

图解机器学习

图解机器学习 每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的,这里我推荐SAS的Li Hui的这篇博客,讲述了如何选择机器学习的各种方法。 另外,Scikit-learn 也提供了一幅清晰的路线图给大家选择:其实机器学习的基本算法都很简单,下面我们就利用二维数据和交互...
转载
1520阅读
0评论
5点赞
发布博客于 3 年前

我应该使用哪种机器学习算法?

我应该使用哪种机器学习算法?该资源主要面向初学者到中级数据科学家或分析师,他们有兴趣识别和应用机器学习算法来解决他们感兴趣的问题。当面对各种各样的机器学习算法时,初学者提出的一个典型问题是“我应该使用哪种算法?”   问题的答案因许多因素而异,包括:数据的大小,质量和特性。 可用的计算时间。 任务的紧迫性。 您想要对数据做什么。即使是经验丰富的数据科学家也无法确定哪种算法在尝试...
翻译
4296阅读
2评论
3点赞
发布博客于 3 年前

承载每天10万级任务的数据调度系统的架构是如何设计的

EasyScheduler大数据调度系统架构分享导语EasyScheduler是易观平台自主研发的大数据分布式调度系统。主要解决数据研发ETL 错综复杂的依赖关系,而不能直观监控任务健康状态等问题。EasyScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。背景任务调度系统在大数据平台当中是一个核心的...
原创
33295阅读
16评论
9点赞
发布博客于 3 年前

Alluxio客户端显示找不到FileSystem类问题分析与解决

我们发现时常在用户邮件列表上会出现一个有关作业失败的问题,这个失败伴随着错误消息“java.lang.ClassNotFoundException:Class alluxio.hadoop.FileSystemnot found”。这篇博客分析解释了这种失败的原因以及发生该问题时的解决方案。为什么会发生这个错误?这个错误说明Alluxio客户端在运行时不可用。当作业尝试访问Alluxio文...
转载
1180阅读
0评论
0点赞
发布博客于 3 年前

劳动合同解除及补偿一览表

经济寒冬下,人员优化情况时有发生,小伙伴们了解一下自己的权益,哈哈!
原创
506阅读
0评论
0点赞
发布博客于 3 年前

BitMap算法详解

BitMap算法详解  所谓的BitMap就是用一个bit位来标记某个元素所对应的value,而key即是该元素,由于BitMap使用了bit位来存储数据,因此可以大大节省存储空间。基本思想:  这此我用一个简单的例子来详细介绍BitMap算法的原理。假设我们要对0-7内的5个元素(4,7,2,5,3)进行排序(这里假设元素没有重复)。我们可以使用BitMap算法达到排序目的。要表示8...
转载
1299阅读
1评论
1点赞
发布博客于 3 年前

jvm疯狂吞占内存,罪魁祸首是谁

分享一篇公司小伙伴的关于jvm占用内存的技术文章导读:JVM是Java Virtual Machine的缩写,中文名为Java虚拟机。它是一种用于计算设备的规范,是一个虚构出来的计算机,主要通过在实际的计算机上仿真模拟各种计算机功能来实现的。在实际运用过程中,易观技术人员注意到一台开发机上各个微服务进程占用内存很高,随即便展开了调查......现象:前段时间发现某台开发机上各个微服务进程占...
原创
9425阅读
1评论
5点赞
发布博客于 3 年前

druid异常处理:Types.collectionOf(Ljava/lang/reflect/Type;)Ljava/lang/reflect/ParameterizedType

2018-11-10T19:54:35,072 INFO [task-runner-0-priority-0] io.druid.indexer.DetermineHashedPartitionsJob - Job wikiticker-determine_partitions_hashed-Optional.of([2015-09-12T00:00:00.000Z/2015-09-13T00:...
原创
1031阅读
0评论
0点赞
发布博客于 3 年前

macbook上ssh localhost免密登录

第一步:ssh-keygen -t rsa        然后提示输入直接按回车就好第二步:cat ~/.ssh/id_rsa.pub &gt;&gt; ~/.ssh/authorized_keys第三步:chmod og-wx ~/.ssh/authorized_keys第四步:chmod 750 $HOME 搞定!...
原创
1566阅读
0评论
0点赞
发布博客于 3 年前

Alluxio Meetup 2018.10.28北京进行,欢迎交流

#搜狗如何将Spark Shuffle迁移到上千台Alluxio机器集群,服务知识图谱?#七牛云如何用Alluxio在云端搭建通用深度学习平台?#京东又是如何定制基于普雷斯托的查询平台?欢迎大家参加2018.10.28(本周日)Alluxio Meetup北京站。与Alluxio公司的创始人兼CEO李浩源面对面,交流Alluxio的发展历程;与多位业绩大咖一起,讨论优秀案例
原创
553阅读
0评论
0点赞
发布博客于 3 年前

ES实践经验分享

公司小伙伴最近分享了ES的实践经验,在此分享给大家:一、 硬件环境选择如果有条件,尽可能使用SSD硬盘, 不错的CPU。ES的厉害之处在于ES本身的分布式架构以及lucene的特性;IO的提升,会极大改进ES的速度和性能;内存配置方面,一般来说,64G内存的机器节点较佳。 二、系统拓朴设计 ES集群在架构拓朴时,一般都会采用Hot-Warm的架构模式,即设置3种不同类型的节...
原创
665阅读
0评论
0点赞
发布博客于 3 年前

Druid异常处理:java.lang.RuntimeException: No buckets?? seems there is no data to index.

2018-09-16T15:10:53,695 ERROR [task-runner-0-priority-0] io.druid.indexing.overlord.ThreadPoolTaskRunner - Exception while running task[HadoopIndexTask{id=index_hadoop_kakou_2018-09-16T15:10:11.216Z,...
原创
1212阅读
0评论
1点赞
发布博客于 3 年前

各种压缩技术性能比较

各种压缩技术性能比较:Compressor name Ratio Compression Decompress. zstd 1.3.4 -1 2.877 470 MB/s 1380 MB/s zlib 1.2.11 -1 2.743 110 MB/s 400 MB/s brotli 1.0.2 -0 2.701 41...
原创
1120阅读
0评论
0点赞
发布博客于 3 年前

Linux OOM killer详解

Linux OOM killer作为Linux下的程序员,有时不得不面对一个问题,那就是系统内存被用光了,这时当进程再向内核申请内存时,内核会怎么办呢?程序里面调用的malloc函数会返回null吗?为了处理内存不足时的问题,Linux内核发明了一种机制,叫OOM(Out Of Memory) killer,通过配置它可以控制内存不足时内核的行为。OOM killer当物理内存和交...
转载
2042阅读
0评论
2点赞
发布博客于 3 年前

吴军《硅谷来信》思维导图笔记 - 工作篇

吴军《硅谷来信》思维导图笔记 - 工作篇一、职业发展部分此部分思维导图URL:https://www.processon.com/view/5a27c093e4b0101bd6d225edPS:五级工程师的定义,看看你现在处于哪一级?二、工作效率部分此部分思维导图URL:https://www.processon.com/view/5a266551e4b0dce08...
转载
2984阅读
0评论
4点赞
发布博客于 3 年前

运营干货 | 如何高效引导,使产品达成自传播增长模式

作为增长部门的一员,观察产品运营数据时发现,持续十来天用户日均增量不超过50? 半月前新版上线跟某平台合作进行宣传推广,在复盘过程中却发现该渠道过来的用户7日留存率不足5%? 作为一款社交软件,产品目前处于探索实施阶段,只能通过举办活动来获客,非活动期间几乎没有新增用户?         …… 你是否也有过这样的苦恼:产品本身用户体验好,且在特定场景下能很好地满...
原创
636阅读
0评论
0点赞
发布博客于 3 年前

2018第二届易观算法大赛报名啦

原创
710阅读
0评论
0点赞
发布博客于 3 年前

APP埋点方式大汇总

埋点方式大汇总图如下:   代码埋点 无码埋点 全/无埋点 按业务需求自定义埋点 √ √   支持事件参数 √ ⭕ ⭕ 部署周期 ...
原创
6040阅读
0评论
4点赞
发布博客于 3 年前

B+Tree 可视化

通过B+Tree 可视化 直观操作理解下B+Tree的插入,查找,更新和删除过程https://www.cs.usfca.edu/~galles/visualization/BPlusTree.html数据结构可视化:https://www.cs.usfca.edu/~galles/visualization/Algorithms.html...
原创
3672阅读
1评论
4点赞
发布博客于 3 年前

LRU算法四种实现方式介绍

LRU全称是Least Recently Used,即最近最久未使用的意思。LRU算法的设计原则是:如果一个数据在最近一段时间没有被访问到,那么在将来它被访问的可能性也很小。也就是说,当限定的空间已存满数据时,应当把最久没有被访问到的数据淘汰。实现LRU     1.用一个数组来存储数据,给每一个数据项标记一个访问时间戳,每次插入新数据项的时候,先把数组中存在的数据项的时间戳自增,并将新数据项的时...
转载
1014阅读
0评论
0点赞
发布博客于 3 年前

一篇推文到底能带来多少流量?UTM参数玩转流量识别与追踪

APP运营工作中的每一步都会讲求ROI(投资回报率),我们进行各种形式的推广,每种推广带来的流量效果如何呢?这就是本文探讨的内容——使用UTM参数进行流量识别。以下为本文的文章结构图: ▌令无数小编垂泪的流量迷思业务场景1:运营同学A每天都会发至少一篇文章到微信公众号,在阅读原文处加上跳转链接,方便用户跳转到官网/活动页面。 业务场景2:运营同学B每天发至少一篇文章到知乎专栏或简书,在文章中加入跳...
转载
1461阅读
0评论
1点赞
发布博客于 3 年前

linux使用FIO测试磁盘的iops

linux使用FIO测试磁盘的iops博客分类: IO FIO是测试IOPS的非常好的工具,用来对硬件进行压力测试和验证,支持13种不同的I/O引擎,包括:sync,mmap, libaio, posixaio, SG v3, splice, null, network, syslet, guasi, solarisaio 等等。fio 官网地址:http://freshmeat.net/proj...
转载
802阅读
0评论
0点赞
发布博客于 3 年前

jdk8 GC之详解CMS收集过程和日志分析

话题引入让我们先简单的看下整个堆年轻代和年老代的垃圾收集器组合(以下配合java8完美支持,其他版本可能稍有不同),其中标红线的则是我们今天要着重讲的内容:ParNew and CMS"Concurrent Mark and Sweep" 是CMS的全称,官方给予的名称是:“Mostly Concurrent Mark and Sweep Garbage Collector”;年轻代:采用 sto...
转载
2948阅读
0评论
2点赞
发布博客于 3 年前

运营干货| 用户触达36计,和用户来次亲密接触

运营干货| 用户触达36计,和用户来次亲密接触 周长清 2018-05-25 15:47数据分析, 用户召回, 用户触达, 用户运营, 精细化运营中年油腻的人可能都听过《第一次的亲密接触》,剧情梗概是痞子蔡在网络上因一篇Plan邂逅自己的女神轻舞飞扬,在一来二去的网上聊天和之后的见面……如果网站/APP就是痞子蔡”,除了明确的目标,还要有绝美的Plan才能高效触达到如女神般的用户。 无论有多么强...
转载
1730阅读
0评论
0点赞
发布博客于 3 年前

HBase之Rowkey设计总结及易观方舟实战篇

一、引言HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品--易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深刻,...
原创
4773阅读
2评论
8点赞
发布博客于 3 年前

几张图看懂高级经理人与普通管理者的区别

普通管理者的对下属的态度情商是管理者重要的特质,高情商在管理者中主要表现为情绪稳定。对于初级管理者而言,他们的情绪很容易被员工的行为左右,并不能及时的调整,员工一旦出错或者是工作表现不理想,初级管理者就会陷入到负面的情绪中。领导力发展项目发现,很多技术型管理者表示,其实他们真心不愿意带团队,其中重要的原因是在于带领团队的那种挫败感带来的负面情绪,实在无法忍受,还是做技术简单! 除此之外,给初级管理...
转载
1161阅读
0评论
1点赞
发布博客于 3 年前

以获客为目标 ,如何从0到1实现用户增长?

以获客为目标 ,如何从0到1实现用户增长? 周长清 2018-04-11 18:08UTM, 代码部署, 留存分析, 网站分析, 转化漏斗每个网站都有目标。如果网站以获客为目标,那么就需要尽可能地让客户留下自己的信息,即我们常说的销售线索。网站目标确定后又该如何实现呢?首先需要对这个目标进行分解。 获客目标解析 ▌业务+技术,双重角度把握网站背景信息把握网站的关键背景信息,主要从两个角度进行--...
转载
1292阅读
0评论
0点赞
发布博客于 3 年前

那些100%被浪费的运营预算,其实本可以避免

那些100%被浪费的运营预算,其实本可以避免 仲志成 2018-04-11 17:41广告屏蔽插件, 用户召回, 用户触达, 精细化运营, 节支随着数字技术的迅速发展,运营、产品和营销人员可以使用的数字化运营及营销推广手段也越来越多。从近几年该领域B2B公司数量激增的生态板图中,我们可以看出这一裂变式的发展。 2011-2017 推广营销生态领域版图裂变  在丰富的数字化手段中,有一种基于用户生...
转载
523阅读
0评论
0点赞
发布博客于 3 年前

用户召回推送消息到达率低?用这4问推出最优解

用户召回推送消息到达率低?用这4问推出最优解 张晓亮 2018-04-11 17:08App后台进程促活, 到达率, 推送消息, 最优解, 用户召回在消息推送这件事上,国内无法使用谷歌官方的GCM,各个ROM厂商对消息推送的实现也存在一定差异,甚至同一厂家开发的不同版本ROM在兼容性上都存在差异。在此局面下,为了尽量提高消息的到达率,大至 ROM 厂商,小至各种提供推送服务平台都在各显神通。 ▌...
转载
1138阅读
0评论
0点赞
发布博客于 3 年前

大数据分析的下一代架构--IOTA架构[上]

IOTA是什么?你是否为下一代大数据架构做好准备?经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化。▌Lambda架构在过去Lambda数据架构成为每一个公司大数据平台必备的架构,它解决了一个公司大数据批量离线处理和实时数据处理的需求。一个典型的Lam...
原创
6983阅读
3评论
7点赞
发布博客于 3 年前

mac下ll命令使用

Create a file named "~/.profile" and add the following line to it:alias ll='ls -lGh'Restart your terminal session。
原创
944阅读
0评论
0点赞
发布博客于 3 年前

工作要做对,更要做到位

日本的管理人员在布置工作内容的时候会把问题交待五遍:    第一遍陈述问题。            渡边君,到超市打瓶酱油?    第二遍重复问题。            渡边君,请重复下我刚才说的。于是渡边君就又重复了一次。    第三遍目的。            渡边君,你知道我为什么让你去打酱油吗?渡边会说厨房用吧。    第四遍意外。            渡边君,你觉得去打酱油会遇到什...
原创
562阅读
0评论
0点赞
发布博客于 3 年前

ippicv_linux_20151201.tgz

Ubuntu16.04安装OpenCV3.2.0过程中,在cmake下载过程中可能会出现 ICV:DOWNLONDING ippicv_linux_20151201.tgz 但是一直下载不下来,自己可以手动下载,把压缩包放到opencv3.2.0->ippic->Download下
tgz
发布资源于 3 年前

class kafka.common.NotLeaderForPartitionException(kafka.server.ReplicaFetcherThread)异常处理

 [2017-06-15 19:33:14,716] ERROR [ReplicaFetcherThread-0-0], Error for partition [3_7_0_20170615,6] to broker 0:class kafka.common.NotLeaderForPartitionException (kafka.server.ReplicaFetcherThread)[20...
原创
5565阅读
0评论
0点赞
发布博客于 3 年前

Hive实现分组排序或者分页

使用到的语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号。 表示根据COL1分组,在分组内部根据 COL2排序,而此函数...
转载
3865阅读
0评论
0点赞
发布博客于 3 年前