代立冬的数据之路

专注数据架构 外功修行,内功修神

Hive实现分组排序或者分页

使用到的语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再...

2018-03-27 23:24:42

阅读数 2306

评论数 0

最新Hive函数

LanguageManual UDF

2017-11-23 18:35:55

阅读数 903

评论数 0

大数据治理系统框架Apache Atlas实践

大数据元数据和数据管理框架Apache Atlas实践今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容:•Apache Atlas简介•Apache Atlas架构•Titan图数据库介绍•ApachAtlas配置•A...

2017-09-21 14:54:12

阅读数 10101

评论数 3

大数据下的企业数据仓库建设

避免底层业务变动对上层需求影响过大,不必改一次业务需求就重新从头处理数据 屏蔽底层复杂的业务逻辑,清晰数据结构并尽可能简单、完整的在接口层呈现业务数据,一句话总结就是使得业务人员使用起来更简单 数据来源和去向可追溯,即数据血缘关系,主要用于快速定位问题 减少重复开发,开发通用的中间层数据,减少很多...

2017-09-05 22:34:18

阅读数 4416

评论数 0

统计中纬度与指标的区别

在统计分析系统中, 维度:是分析的角度。 如流量来源(广告、搜索引擎等),上网方式等 。 指标:是用数值来量化分析维度。是衡量数据的  指标是指可以按总数或比值衡量的具体维度元素。例如,维度“城市”可以计算指标“人口”,其值为具体城市的居民总数。又例如,衡量某个渠道来源的流量所浏览的网页数(浏览量...

2015-12-28 00:01:51

阅读数 3401

评论数 0

hive Illegal Operation state transition from CLOSED to ERROR的处理

异常堆栈如下: 2015-11-24 16:49:11,495 ERROR org.apache.hive.service.cli.operation.Operation: Error running hive query: org.apache.hive.service.cli.HiveSQLE...

2015-11-24 19:05:39

阅读数 1856

评论数 0

hive对有特殊值null的数据倾斜处理

hive对有特殊值null的数据倾斜处理

2015-10-09 14:23:43

阅读数 1892

评论数 0

hive executeTask被interrupt处理

java.io.IOException: Failed on local exception: java.nio.channels.ClosedByInterruptException; Host Details : local host is: "hadoop008/192.168.2...

2015-12-20 11:22:56

阅读数 1721

评论数 3

hive 动态分区(Dynamic Partition)异常处理

Changing Hive Dynamic Partition Limits Symptoms: Hive enforces limits on the number of dynamic partitions that it creates.  The default is 100 dyna...

2015-11-17 10:50:40

阅读数 6034

评论数 0

hive连接数

使用hive分析日志作业很多的时候,需要修改mysql的默认连接数 修改方法   打开/etc/my.cnf文件 在[mysqld]  中添加 max_connections=1000 重启mysql服务  service mysqld restart mysql>show ...

2015-09-26 23:01:11

阅读数 4387

评论数 0

异常message:There is no database named cloudera_manager_metastore_canary_test_db_hive_hivemetastore

NoSuchObjectException(message:There is no database named cloudera_manager_metastore_canary_test_db_hive_hivemetastore_df61080e04cd7eb36c4336f71b5a8bc...

2015-09-17 10:58:13

阅读数 3149

评论数 0

Out of memory due to hash maps used in map-side aggregation解决办法

在运行一个group by的sql时,抛出以下错误信息: Task with the most failures(4):  ----- Task ID:   task_201411191723_723592_m_000004 URL:   http://DDS0204.dratio:50030...

2015-01-28 16:13:57

阅读数 1407

评论数 0

How to configue session timeout in Hive

This article explains how to configure the following settings in Hive: hive.server2.session.check.interval hive.server2.idle.operation.timeout hive...

2016-01-12 23:27:31

阅读数 2089

评论数 1

[解决] HiveServer2中使用jdbc访问hbase时导致ZooKeeper连接持续增加的解决

最近在监控中发现HiveServer2连接到zookeeper里的连接持续上涨,很奇怪,虽然知道HiveServer2支持并发连接,使用ZooKeeper来管理Hive表的读写锁,但我们的环境并不需要这些,我们已经关闭并发功能,以下是线上的配置,甚至把这些值都改成final了。 但是zoo...

2016-02-23 15:55:26

阅读数 6152

评论数 1

美团数据仓库的演进

数据仓库

2015-10-30 17:14:50

阅读数 2534

评论数 1

数据仓库3级范式(3NF)基础

一、引言   最近在整理理大数据模式下的数据仓库数据模型,资料来自互联网和读过的数据仓库理论和实践相关。 二、3NF (1)1NF-无重复的列   数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。   如果出现重复的属性,就可能需...

2015-11-23 17:48:44

阅读数 2982

评论数 0

分布式数据仓库设计

做大做强事实表,做小做弱维表; 分布式模式-维度建模新原则   (1)以值代键:针对键值唯一的维表,除非必要,否则不引入维表,如IP地址维表,采用IP作为维表的主键,事实表中存储IP值;       (2)合理分表:传统关系型数据仓库存在多表整合的冲动,如上图Event事实表,各种Acount...

2015-12-15 08:11:51

阅读数 997

评论数 0

构建企业级数据仓库五步法

数据仓库建模与ETL实践技巧 Posted on 2008-08-01 10:07 xuzhengzhu 阅读(295)  在上一期的专栏文章中,我们曾经提到:数据分析系统的总体架构分为四个部分 —— 源系统、数据仓库、多维数据库、客户端(图一:pic1.bmp) 其中,数据仓库(DW)起到了...

2015-12-17 08:24:04

阅读数 1448

评论数 0

多维数据模型

一、概述   多维数据模型是最流行的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式、雪花模式和事实星座模式,本文以实例方式展示三者的模式和区别。 二、星型模式(star schema)   星型模式的核心是一个大的中心表(事实表),一组小的附属表(维表)。星型模式示例如下所示:

2015-12-15 08:10:29

阅读数 1227

评论数 0

数据仓库建设步骤

数据仓库建设步骤 Posted on 2015-03-04 10:18 xuzhengzhu 阅读(1164) 评论(0) 编辑 收藏 1.系统分析,确定主题 确定一下几个因素:     ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。     ·在系统中需要保存多久的数据,是一年、两...

2015-12-17 08:21:22

阅读数 1070

评论数 0

提示
确定要删除当前文章?
取消 删除