美团数据仓库的演进

美团数据仓库的演进

shdiao · 2013-12-05 20:44

美团数据仓库,在过去的两年中,与我们的业务一起高速发展。在这一演进过程中,有很多值得总结和沉淀的内容。这篇文档回顾下美团数据仓库这两年发展过程中遇到的各种问题,为什么选择了现在的技术方案,每一个功能和模块是在什么情况下产生的,解决的是什么问题,中间有过哪些弯路。既可以作为大家熟悉美团数据仓库构建过程的一篇文档,也可以作为初次建立数据仓库的参考。

史前时代

在正式建设美团数据仓库之前,数据组也为各部门提供数据支持,不过那个时候的数据需求还比较少,而且也相对简单。
通常的做法是:

  • 工程师写一段PHP或者Shell脚本,从命令行输入参数。
  • 自己连接数据库,通常是一个业务数据库的从库,将需要的原始数据提取出来。
  • 在内存中计算数据。
  • 然后将结果写入一个专门存放统计结果的DB。
  • 再写一个PHP页面作为报表提供给需求方。

这是简单明了的流程,但是随着需求的增加和精细化,有一些问题变得很棘手,并严重影响的开发效率:

  • 有很多重复劳动和代码,比如连接数据库的代码,每个人都要写,各种写法不同,分布在很多地方,如果哪个DB的连接方法变更了,需要更改很多地方。
  • 中间数据缺失,中间计算结果不能共享。比如每个Deal每天的销量,不同的人写报表,每人都可能要重算一次。
  • 很难管理和维护,程序语言五花八门,同一指标可以写多种统计方法,各种语言各种执行方式,缺少文档,其他人很难接手维护。
  • 数据的清洗和转换没有统一方法,比如,哪天是每月第一天或每周第几天这种需求,靠手工调用各种时间函数来计算,非常容易出错。
  • 不同数据源的数据很难综合使用, 比如一个数 据需要使用主站的数据和合同系统的数据, 要把这些数据组织在一起就很麻烦
  • 为了解决这些问题,在2011年Q2初,数据组开始搭建美团的数据仓库。

引入ETL

数据仓库的学术定义有很多版本和特点,其中有几个词能概括这一段工作的特点,规范和集成。
首先需要建立一个DB用于保存从各个数据源提取出来的数据。

  • 第一,解决不同数据源的数据联合使用的问题。
  • 第二,因为是独立的DB,可以进行复杂的计算而不用考虑会影响线上个系统的DB。
  • 第三,可以保留大量需要重复使用的中间数据。
  • 第四,数据在首次进入数据仓库时,就可以进行清洗整理,去掉无效数据和脏数据,添加常用字段比如 datekey。

这一时间的一个重要工作是,引入了一个工具——ETL。ETL是Extract(抽取),Transform(转换),Load(载入)的首字母组合。顾名思义,ETL工具的功能就是抽取数据,经过加工后,再载入到新的位置。
ETL的优点是:

  • 封装了到各个数据库的连接,使得工程师只需要关注数据的抽取和转换逻辑,而不必处理各种数据库的连接细节。
  • 将数据抽取和转换统一使用SQL来表示,形式化的统一使得理解处理过程变的简单,便于不同的人协作开发,同时,用SQL表示逻辑将各种复杂的统计交给关系数据库来处理,也降低了出错的可能性。数据抽取的过程中同时完成各种清洗和转换,替换空值,规范时间表示等。

这一时间也同时确定了很多规范:
用数据表示逻辑,典型例子是,不再使用各种时间函数来计算时间,而是建立一个日期表,把某一天的各种信息属性全部算出来存在一张表里,需要的时候只要连表就可以得到。大大降低了时间逻辑出错的可能性并简化了开发。
将数据分为维度数据,事实数据,衍生数据,聚合数据等类型, 以及第一版的命名规范。 为后续数据的组织和管理奠定了基础。
数据仓库的基础数据建设,一直是数据组的一个主要工作,直到2011年Q4,随着各种数据需求的增加,在如何使用数据上,有了一些新想法。

尝试OLAP

要做数据仓库,而不是数据坟墓,数据如果不被使用,就毫无用处。怎么能供各部门更好的使用这些数据呢?我们要做平台,可供人去探索数据的平台。
2011年下半年,随着美团业务的高速发展,用数据支撑运营变得越来越重要,各种数据需求出现了一个井喷期,开发人手比较少,一时间有些捉襟见肘。
有没有方法能让需求方自助的获取数据,而不依赖RD呢,想到了一个非常流行的概念是OLAP——联机分析处理(相对于OLTP——联机事务处理),目标是做成一个自助探索工具的平台。
从2011年Q4开始到2012Q1,数据组开始调研试用开源的OLAP工具套件。耗时较长,从调研和最后试用的情况看,现有的OLAP系统不适合我们。
有几个主要的问题:

  • 开发和使用太复杂,成本太高。
  • 产品成熟度较低,很多数据需求没法支持。
  • 笨重,不太适应互联网公司快速灵活的节奏。
    因为上述原因,到2012Q1, 放弃了OLAP的尝试。
    同时在这个时间点上,公司对数据需求的增长,暴露出了数据仓库的很多问题,可以说是需求走在了技术的前面,迫使我们集中力量做很多大规模的升级。

数据仓库是一套完整的环境

2012Q1时,数据仓库出现了很多新的棘手的问题。

  • 首先,有哪些流程在线我们不清楚,什么时间执行的,有没有按时执行不清楚。报表出了问题要查流程历史记录都很难查。
  • 其次,我们已经有了几百个ETL流程,流程之间有执行顺序的依赖关系,但是没有好的工具来管理,靠crontab里设定执行时间间隔。经常出现上游还没有算完,下游就启动了,会出现脏数据。另一方面,并行开发太多,一个人的修改,不知道会不会影响别人,经常出现冲突。
  • 第三,每次都用PHP手写报表,重复工作太多,开发上线都非常复杂。
  • 第四,数据表和指标很多,命名不规范,经常会遇到两个相近概念的比较问题,解释起来非常麻烦,需要遍历整个计算过程才能梳理清楚。

针对这些问题,分别开发了相应的工具。

  • 第一个是流程的注册,管理,查看的工具,每个流程都有了户口本和行为记录。
  • 第二,写工具分析流程之间的依赖关系,画出关系图。
  • 第三,开发调度系统,根据关系图调度ETL流程执行。
  • 第四,抽象报表工具,屏蔽复杂的报表页面开发,将报表抽象为SQL和配置。
  • 第五,建立数据字典,解释每个指标和名词的意思和计算过程。
    通过这几项主要工作,美团数据仓库发展到了一个比较成熟的阶段。也正是经历了这样一个过程,我们深刻体会到,数据仓库不仅仅是一个“数据存储的工具”, 数据仓库应该是一套完整的软件环境,它应该包括:数据抽取,计算,存储,查询,展示,以及管理这些过程的工具。

协作开放

美团的数据需求发展非常快,这体现在数据规模的增长,数据分析人员的增长,数据分析复杂程度的增长。2012年下半年,快速发展的数据需求让原有的数据仓库架构达到了瓶颈。无论是DB的计算和存储能力,还是开发人员的精力,都达到了很高的负荷。而且由于开发流程和提取数据的重复劳动很多,团队士气也比较低落。这一时间的迫切工作是,如何能让需求方自助获取数据并分析,如何能让数据的计算和存储方便的扩展。
从2012年中开始,重点推进了几项工作以解决上述问题:

  • 第一,建设主题表,将各种数据按照常用的维度展开成宽达几十列上百列的表,使得查数据非常的容易。比如,将一个城市一天的几百个指标放在一行,以城市id和日期作为主键,不用任何连表,使用简单的语法就能获取关于城市的各个角度的数据。类似的主题表还有用户,订单,Deal等角度。丰富的主题表不但简化了报表开发, 也为非技术人员能够自助查询数据提供了方便。
  • 第二,开发自助查询工具,培训使用,让各个部门的人都能在数据仓库上查自己需求的数据,培训大家使用SQL,自助完成需求。
  • 第三,建立数据集市,按业务拆分,将部分数据导入到各个不同的DB,供业务部门更灵活的数据需求。
  • 第四,将数据的存储和计算,向Hadoop/Hive 分布式平台迁移,已达到线性扩展计算和存储能力的需求。
  • 第五,开放数据的存储和计算环境,让ETL流程的编写和部署Web化,让其它组有能力的RD,可以自己在数据仓库上部署计算流程,计算自己需要的数据。
    这几个工作的周期都比较长,现在也在进行中,效果也十分明显,终于有和需求并肩走在一起,没有落后的压迫感了。但还没有走在需求前面。

还有很多挑战

美团的成长速度非常快,数据的规模和复杂度还将十倍百倍的增长;业务多样且变化迅速。如何能够在海量数据基础上进行数据的管理、加工、分析以支持快速成长的业务,后续还面临很多挑战。

已标记关键词 清除标记
相关推荐
<p> <strong><span style="font-size:20px;color:#FF0000;">本课程主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者</span></strong> </p> <p> <span style="color:#FF0000;"><strong><span style="font-size:18px;">1. 包含:<span style="color:#FFFF00;background-color:#FF0000;">项目源码、</span><span style="color:#FFFF00;background-color:#FF0000;">项目文档、数据库脚本、软件工具</span>等所有资料</span></strong></span> </p> <p> <span style="color:#FF0000;"><strong><span style="font-size:18px;">2. 手把手的带你从零开始部署运行本套系统</span></strong></span> </p> <p> <span style="color:#FF0000;"><strong><span style="font-size:18px;">3. 该项目附带的源码资料可作为毕设使用</span></strong></span> </p> <p> <span style="color:#FF0000;"><strong><span style="font-size:18px;">4. 提供技术答疑和远程协助指导</span></strong></span><strong><span style="font-size:18px;"></span></strong> </p> <p> <br /> </p> <p> <span style="font-size:18px;"><strong>项目运行截图:</strong></span> </p> <p> <strong><span style="font-size:18px;">1)系统登陆界面</span></strong> </p> <p> <strong><span style="font-size:18px;"><img src="https://img-bss.csdn.net/202002241015433522.png" alt="" /><br /> </span></strong> </p> <p> <strong><span style="font-size:18px;"><strong><span style="font-size:18px;">2)学生模块</span></strong></span></strong> </p> <p> <strong><span style="font-size:18px;"><img src="https://img-bss.csdn.net/202002241015575966.png" alt="" /></span></strong> </p> <p> <strong><span style="font-size:18px;"><strong><span style="font-size:18px;">3)教师模块</span></strong></span></strong> </p> <p> <strong><span style="font-size:18px;"><img src="https://img-bss.csdn.net/202002241016127898.png" alt="" /></span></strong> </p> <p> <strong><span style="font-size:18px;"><strong><span style="font-size:18px;">4)系统管理员</span></strong></span></strong> </p> <p> <strong><span style="font-size:18px;"><img src="https://img-bss.csdn.net/202002241016281177.png" alt="" /></span></strong> </p> <p> <strong><span style="font-size:18px;"><img src="https://img-bss.csdn.net/202002241016369884.png" alt="" /></span></strong> </p> <p> <strong><span style="font-size:18px;"><br /> </span></strong> </p> <p> <strong><span style="font-size:18px;"><strong><span style="font-size:18px;">更多Java毕设项目请关注我的毕设系列课程 <a href="https://edu.csdn.net/lecturer/2104">https://edu.csdn.net/lecturer/2104</a></span></strong></span></strong> </p> <p> <strong><span style="font-size:18px;"><br /> </span></strong> </p>
简介 笔者当初为了学习JAVA,收集了很多经典源码,源码难易程度分为初级、中级、高级等,详情看源码列表,需要的可以直接下载! 这些源码反映了那时那景笔者对未来的盲目,对代码的热情、执着,对IT的憧憬、向往!此时此景,笔者只专注Android、Iphone等移动平台开发,看着这些源码心中有万分感慨,写此文章纪念那时那景! Java 源码包 Applet钢琴模拟程序java源码 2个目标文件,提供基本的音乐编辑功能。编辑音乐软件的朋友,这款实例会对你有所帮助。 Calendar万年历 1个目标文件 EJB 模拟银行ATM流程及操作源代码 6个目标文件,EJB来模拟银行ATM机的流程及操作:获取系统属性,初始化JNDI,取得Home对象的引用,创建EJB对象,并将当前的计数器初始化,调用每一个EJB对象的count()方法,保证Bean正常被激活和钝化,EJB对象是用完毕,从内存中清除,从账户中取出amt,如果amt>账户余额抛出异常,一个实体Bean可以表示不同的数据实例,我们应该通过主键来判断删除哪个数据实例…… ejbCreate函数用于初始化一个EJB实例 5个目标文件,演示Address EJB的实现 ,创建一个EJB测试客户端,得到名字上下文,查询jndi名,通过强制转型得到Home接口,getInitialContext()函数返回一个经过初始化的上下文,用client的getHome()函数调用Home接口函数得到远程接口的引用,用远程接口的引用访问EJB。 EJB中JNDI的使用源码例子 1个目标文件,JNDI的使用例子,有源代码,可以下载参考,JNDI的使用,初始化Context,它是连接JNDI树的起始点,查找你要的对象,打印找到的对象,关闭Context…… ftp文件传输 2个目标文件,FTP的目标是:(1)提高文件的共享性(计算机程序和/或数据),(2)鼓励间接地(通过程序)使用远程计算机,(3)保护用户因主机之间的文件存储系统导致的变化,(4)为了可靠和高效地传输,虽然用户可以在终端上直接地使用它,但是它的主要作用是供程序使用的。本规范尝试满足大型主机、微型主机、个人工作站、和TACs 的不同需求。例如,容易实现协议的设计。 Java EJB中有、无状态SessionBean的两个例子 两个例子,无状态SessionBean可会话Bean必须实现SessionBean,获取系统属性,初始化JNDI,取得Home对象的引用,创建EJB对象,计算利息等;在有状态SessionBean中,用累加器,以对话状态存储起来,创建EJB对象,并将当前的计数器初始化,调用每一个EJB对象的count()方法,保证Bean正常被激活和钝化,EJB对象是用完毕,从内存中清除…… Java Socket 聊天通信演示代码 2个目标文件,一个服务器,一个客户端。 Java Telnet客户端实例源码 一个目标文件,演示Socket的使用。 Java 组播组中发送和接受数据实例 3个目标文件。 Java读写文本文件的示例代码 1个目标文件。 java俄罗斯方块 一个目标文件。 Java非对称加密源码实例 1个目标文件 摘要:Java源码,算法相关,非对称加密   Java非对称加密源程序代码实例,本例中使用RSA加密技术,定义加密算法可用 DES,DESede,Blowfish等。   设定字符串为“张三,你好,我是李四”   产生张三的密钥对(keyPairZhang)   张三生成公钥(publicKeyZhang)并发送给李四,这里发送的是公钥的数组字节   通过网络或磁盘等方式,把公钥编码传送给李四,李四接收到张三编码后的公钥,将其解码,李四用张三的公钥加密信息,并发送给李四,张三用自己的私钥解密从李四处收到的信息…… Java利用DES私钥对称加密代码实例 同上 java聊天室 2个目标文件,简单。 java模拟掷骰子2个 1个目标文件,输出演示。 java凭图游戏 一个目标文件,简单。 java求一个整数的因子 如题。 Java生成密钥的实例 1个目标文件 摘要:Java源码,算法相关,密钥   Java生成密钥、保存密钥的实例源码,通过本源码可以了解到Java如何产生单钥加密的密钥(myKey)、产生双钥的密钥对(keyPair)、如何保存公钥的字节数组、保存私钥到文件privateKey.dat、如何用Java对象序列化保存私钥,通常应对私钥加密后再保存、如何从文件中得到公钥编码的字节数组、如何从字节数组解码公钥。 Java数据压缩与传输实例 1个目标文件 摘要:Java源码,文件操作,数据压缩,文件传输   Java数据压缩与传输实例,可以学习一下实例化套按字、得到文件输入流、压缩输入流、文件输出流、实例化缓冲
<p> <span style="color:#0000ff;">需要学习ubuntu系统上YOLOv4的同学请前往:《YOLOv4目标检测实战:原理与源码解析》</span> </p> <h3> <span style="color:#3598db;">【为什么要学习这门课】</span> </h3> <p> Linux创始人Linus Torvalds有一句名言:Talk is cheap. Show me the code. <strong><span style="color:#ba372a;">冗谈不够,放码过来!</span></strong> </p> <p> 代码阅读是从基础到提高的必由之路。尤其对深度学习,许多框架隐藏了神经网络底层的实现,只能在上层调包使用,对其内部原理很难认识清晰,不利于进一步优化和创新。 </p> <p> YOLOv4是最近推出的基于深度学习的端到端实时目标检测方法。 </p> <p> YOLOv4的实现darknet是使用C语言开发的轻型开源深度学习框架,依赖少,可移植性好,可以作为很好的代码阅读案例,让我们深入探究其实现原理。 </p> <h3> <span style="color:#3598db;">【课程内容与收获】</span> </h3> <p> 本课程将解析YOLOv4的实现原理和源码,具体内容包括: </p> <p> - YOLOv4目标检测原理 </p> <p> - 神经网络及darknet的C语言实现,尤其是反向传播的梯度求解和误差计算 </p> <p> - 代码阅读工具及方法 </p> <p> - 深度学习计算的利器:BLAS和GEMM </p> <p> - GPU的CUDA编程方法及在darknet的应用 </p> <p> - YOLOv4的程序流程 </p> <p> - YOLOv4各层及关键技术的源码解析 </p> <p> 本课程将提供注释后的darknet的源码程序文件。 </p> <h3> <span style="color:#3598db;">【相关课程】</span> </h3> <p> 除本课程《Windows版YOLOv4目标检测:原理与源码解析》外,本人推出了有关YOLOv4目标检测的系列课程,包括: </p> <p> 《Windows版YOLOv4目标检测实战:训练自己的数据集》 </p> <p> 《Windows版YOLOv4-Tiny目标检测实战:训练自己的数据集》 </p> <p> 《Windows版YOLOv4目标检测实战:人脸口罩佩戴检测》<br /> 《Windows版YOLOv4目标检测实战:中国交通标志识别》 </p> <p> 建议先学习一门YOLOv4实战课程,对YOLOv4的使用方法了解以后再学习本课程。 </p> <h3> <span style="color:#3598db;">【YOLOv4网络模型架构图】</span> </h3> <p> 下图由白勇老师绘制<img src="https://img-bss.csdnimg.cn/202006291533009066.jpg" alt="" /> </p> <p>   </p>
<p> <strong><span style="font-size:16px;color:#003399;">会用Python分析金融数据 or 金融行业会用Python</span></strong> </p> <p> <strong><span style="font-size:16px;color:#003399;">职场竞争力更高</span></strong> </p> <p> <br /> </p> <p> <img src="https://img-bss.csdnimg.cn/202012231042221925.png" alt="" /> </p> <p> <br /> </p> <p> <br /> </p> <p> <strong><span style="font-size:16px;color:#003399;">Python金融数据分析入门到实战</span></strong> </p> <p> <strong><span style="font-size:16px;color:#003399;">Get√金融行业数据分析必备技能</span></strong> </p> <p> <img src="https://img-bss.csdnimg.cn/202012231042438069.png" alt="" /> </p> <p> <br /> </p> <p> <br /> </p> <p> <strong><span style="font-size:16px;color:#003399;">以股票量化交易为应用场景</span></strong> </p> <p> <strong><span style="font-size:16px;color:#003399;">完成技术指标实现的全过程</span></strong> </p> <p> <br /> </p> <p> <span style="font-size:14px;">课程选取股票量化交易为应用场景,由股票数据的获取、技术指标的实现,逐步进阶到策略的设计</span><span style="font-size:14px;">和回测,由浅入深、由技术到思维地为同学们讲解Python金融数据分析在股票量化交易中的应用</span><span style="font-size:14px;">。</span> </p> <p> <br /> </p> <p> <span style="font-size:14px;"><br /> </span> </p> <p> <img src="https://img-bss.csdnimg.cn/202012231043183686.png" alt="" /> </p> <p> <br /> </p> <p> <br /> </p> <p> <strong><span style="font-size:16px;color:#003399;">以Python为编程语言</span></strong> </p> <p> <strong><span style="font-size:16px;color:#003399;">解锁3大主流数据分析工具</span></strong> </p> <p> <br /> </p> <p> <span style="font-size:14px;">Python做金融具有先天优势,课程提取了Python数据分析工具NumPy、Pandas及可视化工具</span><span style="font-size:14px;">Matplotlib的关键点详细讲解,帮助同学掌握数据分析的关键技能。</span> </p> <p> <img src="https://img-bss.csdnimg.cn/202012231043472858.png" alt="" /> </p> <p> <strong><span style="font-size:16px;color:#003399;"><br /> </span></strong> </p> <p> <strong><span style="font-size:16px;color:#003399;">2大购课福利</span></strong> </p> <p> <strong><span style="font-size:16px;color:#003399;"><br /> </span></strong> </p> <p> <img src="https://img-bss.csdnimg.cn/202012300628195864.png" alt="" /> </p>
©️2020 CSDN 皮肤主题: 酷酷鲨 设计师:CSDN官方博客 返回首页