代立冬的数据之路

专注数据架构 外功修行,内功修神

大数据治理系统框架Apache Atlas实践

大数据元数据和数据管理框架Apache Atlas实践今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容:•Apache Atlas简介•Apache Atlas架构•Titan图数据库介绍•ApachAtlas配置•A...

2017-09-21 14:54:12

阅读数 10101

评论数 3

[解决] HiveServer2中使用jdbc访问hbase时导致ZooKeeper连接持续增加的解决

最近在监控中发现HiveServer2连接到zookeeper里的连接持续上涨,很奇怪,虽然知道HiveServer2支持并发连接,使用ZooKeeper来管理Hive表的读写锁,但我们的环境并不需要这些,我们已经关闭并发功能,以下是线上的配置,甚至把这些值都改成final了。 但是zoo...

2016-02-23 15:55:26

阅读数 6152

评论数 1

hive 动态分区(Dynamic Partition)异常处理

Changing Hive Dynamic Partition Limits Symptoms: Hive enforces limits on the number of dynamic partitions that it creates.  The default is 100 dyna...

2015-11-17 10:50:40

阅读数 6034

评论数 0

大数据下的企业数据仓库建设

避免底层业务变动对上层需求影响过大,不必改一次业务需求就重新从头处理数据 屏蔽底层复杂的业务逻辑,清晰数据结构并尽可能简单、完整的在接口层呈现业务数据,一句话总结就是使得业务人员使用起来更简单 数据来源和去向可追溯,即数据血缘关系,主要用于快速定位问题 减少重复开发,开发通用的中间层数据,减少很多...

2017-09-05 22:34:18

阅读数 4416

评论数 0

hive连接数

使用hive分析日志作业很多的时候,需要修改mysql的默认连接数 修改方法   打开/etc/my.cnf文件 在[mysqld]  中添加 max_connections=1000 重启mysql服务  service mysqld restart mysql>show ...

2015-09-26 23:01:11

阅读数 4387

评论数 0

统计中纬度与指标的区别

在统计分析系统中, 维度:是分析的角度。 如流量来源(广告、搜索引擎等),上网方式等 。 指标:是用数值来量化分析维度。是衡量数据的  指标是指可以按总数或比值衡量的具体维度元素。例如,维度“城市”可以计算指标“人口”,其值为具体城市的居民总数。又例如,衡量某个渠道来源的流量所浏览的网页数(浏览量...

2015-12-28 00:01:51

阅读数 3401

评论数 0

异常message:There is no database named cloudera_manager_metastore_canary_test_db_hive_hivemetastore

NoSuchObjectException(message:There is no database named cloudera_manager_metastore_canary_test_db_hive_hivemetastore_df61080e04cd7eb36c4336f71b5a8bc...

2015-09-17 10:58:13

阅读数 3149

评论数 0

数据仓库3级范式(3NF)基础

一、引言   最近在整理理大数据模式下的数据仓库数据模型,资料来自互联网和读过的数据仓库理论和实践相关。 二、3NF (1)1NF-无重复的列   数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。   如果出现重复的属性,就可能需...

2015-11-23 17:48:44

阅读数 2982

评论数 0

数据集市

1.  什么是数据集市?数据集市与数据仓库的区别?        数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( Time Variant) 的数据...

2015-12-21 01:20:43

阅读数 2691

评论数 0

美团数据仓库的演进

数据仓库

2015-10-30 17:14:50

阅读数 2534

评论数 1

Hive实现分组排序或者分页

使用到的语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再...

2018-03-27 23:24:42

阅读数 2306

评论数 0

数据仓库建模:定义事实表的粒度

数据仓库建模:定义事实表的粒度 Posted on 2015-08-25 09:03 xuzhengzhu 阅读(28) 评论(0) 编辑 收藏 维度建模中一个非常重要的步骤是定义事实表的粒度。定义了事实表的粒度,则事实表能表达数据的详细程度就确定了。定义粒度的例子如下: 1.客户的零售单据上...

2015-12-17 08:19:38

阅读数 2267

评论数 0

How to configue session timeout in Hive

This article explains how to configure the following settings in Hive: hive.server2.session.check.interval hive.server2.idle.operation.timeout hive...

2016-01-12 23:27:31

阅读数 2089

评论数 1

hive对有特殊值null的数据倾斜处理

hive对有特殊值null的数据倾斜处理

2015-10-09 14:23:43

阅读数 1892

评论数 0

hive Illegal Operation state transition from CLOSED to ERROR的处理

异常堆栈如下: 2015-11-24 16:49:11,495 ERROR org.apache.hive.service.cli.operation.Operation: Error running hive query: org.apache.hive.service.cli.HiveSQLE...

2015-11-24 19:05:39

阅读数 1856

评论数 0

hive executeTask被interrupt处理

java.io.IOException: Failed on local exception: java.nio.channels.ClosedByInterruptException; Host Details : local host is: "hadoop008/192.168.2...

2015-12-20 11:22:56

阅读数 1721

评论数 3

构建企业级数据仓库五步法

数据仓库建模与ETL实践技巧 Posted on 2008-08-01 10:07 xuzhengzhu 阅读(295)  在上一期的专栏文章中,我们曾经提到:数据分析系统的总体架构分为四个部分 —— 源系统、数据仓库、多维数据库、客户端(图一:pic1.bmp) 其中,数据仓库(DW)起到了...

2015-12-17 08:24:04

阅读数 1448

评论数 0

星型模式

一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表。   事实表是星型模型的核心,事实表由主键和度量数据两部分组成。星型模型中各维度表主键的组合构成事实表的主键。事实表中存放的大量数据,是同主题密切相关的、用户最关心的度量数据。星级酒店最需要关注的是客户消费情况。为分析的需...

2016-01-03 23:59:56

阅读数 1426

评论数 0

Out of memory due to hash maps used in map-side aggregation解决办法

在运行一个group by的sql时,抛出以下错误信息: Task with the most failures(4):  ----- Task ID:   task_201411191723_723592_m_000004 URL:   http://DDS0204.dratio:50030...

2015-01-28 16:13:57

阅读数 1407

评论数 0

多维数据模型

一、概述   多维数据模型是最流行的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式、雪花模式和事实星座模式,本文以实例方式展示三者的模式和区别。 二、星型模式(star schema)   星型模式的核心是一个大的中心表(事实表),一组小的附属表(维表)。星型模式示例如下所示:

2015-12-15 08:10:29

阅读数 1227

评论数 0

提示
确定要删除当前文章?
取消 删除