数据之路

专注数据架构 外功修行,内功修神

HDFS中的内存存储支持

因工作中olap场景中对性能的极致要求,我们将部分业务数据的hdfs路径的存储策略设置为放在内存中(RAM_DISK)中,这是在hadoop2.6以后的版本支持的。抽空翻译了官网的文章 HDFS中的内存存储支持 介绍 管理员配置 限制副本使用的内存 在数据节点上设置RAM磁盘 选择tm...

2019-01-10 00:03:37

阅读数 1516

评论数 3

各种压缩技术性能比较

各种压缩技术性能比较: Compressor name Ratio Compression Decompress. zstd 1.3.4 -1 2.877 470 MB/s 1380 MB/s zlib 1.2.11 -1 2.743 11...

2018-09-14 12:09:48

阅读数 299

评论数 0

journalnode Can't scan a pre-transactional edit log异常处理

一个测试环境hadoop集群由于磁盘满导致宕机,启动后发现journalnode报如下异常:2018-03-19 20:48:04,817 WARN  namenode.FSImage (EditLogFileInputStream.java:scanEditLog(359)) - Caught ...

2018-03-20 17:03:58

阅读数 1300

评论数 0

大数据存储平台调优之Hadoop优化

大数据存储平台调优之Hadoop优化 在上节搭建完集群、完成Linux系统配置(优化)后以及建好HDFS上的目录后,我们接下来需要对Hadoop集群做一些优化的工作。我们从两个方面来说:一是HDFS存储方面,一是计算方面  1、 HDFS方面: 1> 存储格式的选择 ...

2018-03-15 23:22:54

阅读数 1276

评论数 0

大数据存储平台之异构存储实践

经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。这就产生了一种热和冷数据,对需要频繁访问的数据我们称之为“热”数据,反之我们称之为”冷”数据,...

2018-03-13 10:28:11

阅读数 3884

评论数 0

Log Aggregation Status TIME_OUT的缘起

在spark on yarn运行中,有时会发现spark程序运行完毕后,spark的运行界面没有信息,或者找不到相关的运行信息了,经仔细查看NodeManager UI,出现如下信息:Log Aggregation Status TIME_OUT原来NodeManager可以在应用结束后将日志安全...

2017-12-09 21:32:19

阅读数 749

评论数 0

dfs.datanode.du.reserved 预留空间不生效的问题

dfs.datanode.du.reserved 预留空间不生效的问题

2017-04-08 09:46:06

阅读数 1486

评论数 0

Ambari和ClouderaManager主要不同对比

Ambari和ClouderaManager主要的不同对比 打算对新建的hadoop集群使用管理工具,列了以下主要的不同点: 主要的不同点 apache Ambari ClouderaManager Express(免费版) 配置版本控制和历史记录 支持 不支持 二次开...

2017-02-28 11:29:32

阅读数 7816

评论数 0

python使用snappy压缩

今天在网上找了很久,终于找到1个snappy压缩命令行,记录下来:1.wget https://bootstrap.pypa.io/get-pip.py2.python ./get-pip.py 3.yum install gcc-c++4.pip install python-snappy用法...

2017-02-08 19:48:51

阅读数 3723

评论数 0

Hadoop YARN 的工作流程简述

1、Client 向 YARN 提交应用程序,其中包括 ApplicationMaster 程序及启动 ApplicationMaster 的命令2、ResourceManager 为该 ApplicationMaster 分配第一个 Container,并与对应的 NodeManager 通信,...

2016-12-18 22:55:25

阅读数 1137

评论数 0

修改ranger ui的admin用户登录密码踩坑小记

修改的ranger ui的admin用户登录密码时,需要在ranger的配置里把admin_password改成一样的,否则hdfs的namenode在使用admin时启动不起来,异常如下:Traceback (most recent call last): ambari_ranger_a...

2016-10-27 10:33:13

阅读数 3210

评论数 0

大数据应用分类

1.工具或者服务化平台。Hadoop基础套件的。像亚马逊云等3.数据交易。典型企业有数据堂,api接口的各公司2.数据统计分析。这一类主要是BI,既有企业自有产品,也有第三方产品5.报告或解决方案。做大数据解决方案的公司就很多了,典型的公司为IBM。4.数据挖掘。用户画像(标签:奶爸;户外达人),...

2016-06-28 11:51:18

阅读数 2368

评论数 0

Hadoop Yarn事件处理框架源码分析

由于想在项目中使用类似yarn的事件处理机制,就看了实现。主要是由Dispatcher.java,EventHandler.java,Service.java这3个类撑起来的。 在事件处理之前,先注册相应的事件处理handler,收到事件event后,由派发事件的Dispatcher进行派发,默认...

2016-06-21 21:54:46

阅读数 4589

评论数 0

优化Hadoop Balancer运行速度

  1. 修改dfs.datanode.max.transfer.threads = 4096 (如果运行hbase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanode.max.xcievers 2. 修改dfs.dat...

2016-05-17 15:13:30

阅读数 5143

评论数 0

[解决]java.io.IOException: Cannot obtain block length for LocatedBlock

Cannot obtain block length for LocatedBlock

2016-05-16 01:55:21

阅读数 8526

评论数 0

大数据安全规范

大数据的安全体系分为五个层次:周边安全、数据安全、访问安全(认证 - authentication和授权 - authorization)、访问行为可见、错误处理和异常管理

2016-04-23 23:31:30

阅读数 7895

评论数 0

YARN和MapReduce的内存设置参考

如何确定Yarn中容器Container,Mapreduce相关参数的内存设置,对于初始集群,由于不知道集群的类型(如CPU密集、IO密集还是网络密集)我们需要根据经验提供给我们一个参考配置值,来作为基础的配置。完成这一任务有两种方式,确定YARN和MapReduce的内存设置,我们可以使用HDP...

2016-03-21 23:11:50

阅读数 7389

评论数 1

[解决] User [dr.who] is not authorized to view the logs for application

User [dr.who] is not authorized to view the logs for application 原因 Resource Manager UI的默认用户dr.who权限不正确

2016-03-02 21:26:42

阅读数 6134

评论数 0

Reduce Side Join实现

Reduce Side Join Example User and comment join In thisexample, we’ll be using theusers and comments tables from the StackOverflow dataset. Storing da...

2016-01-29 17:46:48

阅读数 939

评论数 0

File file:/data1/hadoop/yarn/local/usercache/hp/appcache/application_* does not exi

AM Container for appattempt_1453292851883_0381_000002 exited with exitCode: -1000 For more detailed output, check application tracking page:http://ha...

2016-01-24 16:21:53

阅读数 4522

评论数 0

提示
确定要删除当前文章?
取消 删除