自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据之路

专注数据架构 外功修行,内功修神

原创 大数据分析的下一代架构--IOTA架构设计实践[下]

IOTA架构提出背景 大数据3.0时代以前,Lambda数据架构成为大数据公司必备的架构,它解决了大数据离线处理和实时数据处理的需求。典型的Lambda架构如下: Lambda架构的核心思想是: 数据从底层的数据源开始,经过各样的格式进入大数据平台,然后分成两条线进行计算。一条线是进入流式计算平...

2018-12-31 20:59:53 3777 0

原创 承载每天10万级任务的数据调度系统的架构是如何设计的

EasyScheduler大数据调度系统架构分享 导语 EasyScheduler是易观平台自主研发的大数据分布式调度系统。主要解决数据研发ETL 错综复杂的依赖关系,而不能直观监控任务健康状态等问题。EasyScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支...

2018-12-13 20:01:57 32945 16

原创 spark-submit时上传spark依赖到hdfs时间较长问题解决

spark-submit时,发现上传spark依赖到hdfs 时间长达数分钟,现象如下方截图: 这个日志之后在上传程序依赖的jar,根据不同网络负荷,需要耗时数十秒甚至数分钟,导致任务提交速度超级慢,在官网上查到出现这种现象的原因:https://spark.apache.org/docs/...

2018-12-22 17:55:47 1552 0

原创 数据分析指标名词解释

数据分析指标名词解释 名词解释 维度 指人们分析事物的角度。比如,分析活跃用户,可以从时间的维度,也可以从地域的维度去看,也可以时间、地域两个维度组合去分析。 有层次关系的维度,就可以根据分析需求改变维的层次,变换分析的粒度钻取,比如分析活跃用户,从地域这个维度类型上,可以细分到省份、城市、...

2018-12-21 22:23:07 1658 1

转载 图解机器学习

图解机器学习  每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的,这里我推荐SAS的Li Hui的这篇博客,讲述了如何选择机器学习的各种方法。   另外,Scikit-learn 也...

2018-12-18 00:08:32 1495 0

翻译 我应该使用哪种机器学习算法?

我应该使用哪种机器学习算法? 该资源主要面向初学者到中级数据科学家或分析师,他们有兴趣识别和应用机器学习算法来解决他们感兴趣的问题。 当面对各种各样的机器学习算法时,初学者提出的一个典型问题是“我应该使用哪种算法?”   问题的答案因许多因素而异,包括: 数据的大小,质量和特性。 可用的计...

2018-12-16 14:56:05 4151 2

转载 Alluxio客户端显示找不到FileSystem类问题分析与解决

我们发现时常在用户邮件列表上会出现一个有关作业失败的问题,这个失败伴随着错误消息“java.lang.ClassNotFoundException:Class alluxio.hadoop.FileSystemnot found”。这篇博客分析解释了这种失败的原因以及发生该问题时的解决方案。 为...

2018-12-13 17:30:24 1103 0

原创 劳动合同解除及补偿一览表

经济寒冬下,人员优化情况时有发生,小伙伴们了解一下自己的权益,哈哈!

2018-12-13 13:44:20 485 0

提示
确定要删除当前文章?
取消 删除