代立冬的数据之路

专注数据架构 外功修行,内功修神

排序:
默认
按更新时间
按访问量
RSS订阅

Hive性能优化(全面)

Hive性能优化(全面)2018-02-02 Hadoop大数据应用1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。...

2018-02-05 12:06:05

阅读数 616

评论数 0

大数据治理系统框架Apache Atlas实践

大数据元数据和数据管理框架Apache Atlas实践今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容:•Apache Atlas简介•Apache Atlas架构•Titan图数据库介绍•ApachAtlas配置•A...

2017-09-21 14:54:12

阅读数 10101

评论数 3

大数据下的企业数据仓库建设

避免底层业务变动对上层需求影响过大,不必改一次业务需求就重新从头处理数据 屏蔽底层复杂的业务逻辑,清晰数据结构并尽可能简单、完整的在接口层呈现业务数据,一句话总结就是使得业务人员使用起来更简单 数据来源和去向可追溯,即数据血缘关系,主要用于快速定位问题 减少重复开发,开发通用的中间层数据,减少很多...

2017-09-05 22:34:18

阅读数 4416

评论数 0

统计中纬度与指标的区别

在统计分析系统中, 维度:是分析的角度。 如流量来源(广告、搜索引擎等),上网方式等 。 指标:是用数值来量化分析维度。是衡量数据的  指标是指可以按总数或比值衡量的具体维度元素。例如,维度“城市”可以计算指标“人口”,其值为具体城市的居民总数。又例如,衡量某个渠道来源的流量所浏览的网页数(浏览量...

2015-12-28 00:01:51

阅读数 3401

评论数 0

美团数据仓库的演进

数据仓库

2015-10-30 17:14:50

阅读数 2534

评论数 1

数据仓库3级范式(3NF)基础

一、引言   最近在整理理大数据模式下的数据仓库数据模型,资料来自互联网和读过的数据仓库理论和实践相关。 二、3NF (1)1NF-无重复的列   数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。   如果出现重复的属性,就可能需...

2015-11-23 17:48:44

阅读数 2982

评论数 0

分布式数据仓库设计

做大做强事实表,做小做弱维表; 分布式模式-维度建模新原则   (1)以值代键:针对键值唯一的维表,除非必要,否则不引入维表,如IP地址维表,采用IP作为维表的主键,事实表中存储IP值;       (2)合理分表:传统关系型数据仓库存在多表整合的冲动,如上图Event事实表,各种Acount...

2015-12-15 08:11:51

阅读数 997

评论数 0

构建企业级数据仓库五步法

数据仓库建模与ETL实践技巧 Posted on 2008-08-01 10:07 xuzhengzhu 阅读(295)  在上一期的专栏文章中,我们曾经提到:数据分析系统的总体架构分为四个部分 —— 源系统、数据仓库、多维数据库、客户端(图一:pic1.bmp) 其中,数据仓库(DW)起到了...

2015-12-17 08:24:04

阅读数 1448

评论数 0

多维数据模型

一、概述   多维数据模型是最流行的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式、雪花模式和事实星座模式,本文以实例方式展示三者的模式和区别。 二、星型模式(star schema)   星型模式的核心是一个大的中心表(事实表),一组小的附属表(维表)。星型模式示例如下所示:

2015-12-15 08:10:29

阅读数 1227

评论数 0

数据仓库建设步骤

数据仓库建设步骤 Posted on 2015-03-04 10:18 xuzhengzhu 阅读(1164) 评论(0) 编辑 收藏 1.系统分析,确定主题 确定一下几个因素:     ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。     ·在系统中需要保存多久的数据,是一年、两...

2015-12-17 08:21:22

阅读数 1070

评论数 0

数据仓库建模:定义事实表的粒度

数据仓库建模:定义事实表的粒度 Posted on 2015-08-25 09:03 xuzhengzhu 阅读(28) 评论(0) 编辑 收藏 维度建模中一个非常重要的步骤是定义事实表的粒度。定义了事实表的粒度,则事实表能表达数据的详细程度就确定了。定义粒度的例子如下: 1.客户的零售单据上...

2015-12-17 08:19:38

阅读数 2267

评论数 0

数据集市

1.  什么是数据集市?数据集市与数据仓库的区别?        数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( Time Variant) 的数据...

2015-12-21 01:20:43

阅读数 2691

评论数 0

支付宝数据建模介绍

支付宝数据建模介绍

2015-12-21 00:42:32

阅读数 1200

评论数 0

星型模式

一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表。   事实表是星型模型的核心,事实表由主键和度量数据两部分组成。星型模型中各维度表主键的组合构成事实表的主键。事实表中存放的大量数据,是同主题密切相关的、用户最关心的度量数据。星级酒店最需要关注的是客户消费情况。为分析的需...

2016-01-03 23:59:56

阅读数 1426

评论数 0

提示
确定要删除当前文章?
取消 删除