原创

Alluxio Meetup 2018.10.28北京进行,欢迎交流

版权声明:本文为博主原创文章,遵循 CC 4.0 BY 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://lidong.blog.csdn.net/article/details/83341894

#搜狗如何将Spark Shuffle迁移到上千台Alluxio机器集群,服务知识图谱?

#七牛云如何用Alluxio在云端搭建通用深度学习平台?

#京东又是如何定制基于普雷斯托的查询平台?

欢迎大家参加2018.10.28(本周日)Alluxio Meetup北京站。与Alluxio公司的创始人兼CEO李浩源面对面,交流Alluxio的发展历程;与多位业绩大咖一起,讨论优秀案例😄😄😄

欢迎点击链接报名!

http://www.huodongxing.com/event/8461149642800?td=9482520370698

时间:10月28日太阳13:00-18:30

地点:  北京朝阳酒仙桥东路9号电子城科技园-A1写字楼

议题介绍:

议题一14:00-14:45 Alluxio的演化之路

讲者介绍:

李浩源,Alluxio公司的创始人和CEO。博士毕业于加州大学伯克利分校,在AMPLab读博期间联合创造了开源的内存级虚拟分布式存储系统Alluxio(曾用名Tachyon)。此外,他是Apache Spark项目的创始提交者。李浩源硕士和本科分别毕业于康奈尔大学和北京大学。

内容摘要:

未来是数据的时代,数据的高效管理,存储以及访问的抽象无疑是这个时代的基石。开源分布式虚拟数据系统Alluxio致力于为大数据,机器学习,以及人工智能提供简单高效的数据抽象,便捷的数据共享以及高速的I / O,同时让应用与数据的持久化隔离并提供丰富的存储系统选择。经过数年的发展,Alluxio由最初加州大学伯克利分校AMPLab里仅有数名博士生以及研究人员参与的研究项目原型,发展到超过800名代码贡献者(Alluxio 1.8发布时数据),并部署在包括腾讯,百度,京东和双西格玛,巴克莱银行等上百家中外行业领导者的生产环境中,成为数据平台和数据基础架构的一个重要组成部分。

Alluxio项目创始人李浩源将回顾自己从在大学实验室中创立科研项目,到融资并成立公司以支持项目的落地和发展,并一路推动社区发展至今的演化历程,并分享Alluxio项目在各个不同行业里的成功案例。

 

议题二14:45-15:30展望Alluxio 2.0

讲者介绍:

范斌,Alluxio公司的创始成员,Alluxio开源项目的PMC成员。加入Alluxio项目之前,范斌就职于Google Mountain View。范斌博士毕业于卡内基梅隆大学(Carnegie Mellon University)计算机系,博士期间从事分布式系统算法和实现,是CuckooFilter以及高性能的多线程KV库libcuckoo的作者。有多项专利并在SIGCOMM,SOSP,NSDI等顶级学术会议上发表论文。

内容摘要:

Alluxio社区在2018年9月发布1.8.1之后,已经开始着手设计,试验并实现下一代重大升级版本Alluxio 2.0。范斌将分享Alluxio 2.0系统着眼的功能,面临的挑战,介绍开发者社区对于对RPC系统升级,完整支持异步写,数据副本的管理,以及自建的HA模式(无需依赖动物园管理员或者HDFS)等重要功能的目标,设计和进度。同时,作为Alluxio开源项目的核心开发者,范斌还将分享在过去数年中Alluxio团队总结的一些分布式系统开发的经验教训及最佳工程实践。

 

议题三15:30-16:15 Alluxio在京东Ad Hoc平台的应用 - 对JDPresto的加速

讲者介绍:

张芒,京东大数据平台计算引擎负责人,2015年年加入京东,主要负责即席平台的搭建,架构升级及日常维护工作。开源软件爱好者,目前是Hadoop的,蜂巢,转眼间,Alluxio的贡献者

内容摘要:

京东自组织平台自2017年开始使用alluxio,目前已部署超过500个物理节点,每天加载超过70T的数据,alluxio为自组织平台部分的Presto应用带来了10X的性能提升和稳定的亚秒级查询体验;基于alluxio实现独立的shuffle service服务,根据任务级别和任务类型(Spark,MR)决定shuffle数据存储等级(RAM,SSD,HDD)

 

议题四16:15-17:00 Alluxio在七牛云深度学习训练平台AVA上的应用

讲者介绍:

谢博文,七牛云研发工程师,硕士毕业于上海交通大学,目前专注于为深度学习训练平台提供稳定高性能的存储系统。

内容摘要:

七牛云Atlab实验室专注于机器视觉方向的深度学习研究。我们团队针对深度学习训练打造了高效的训练平台AVA,深度整合了存储和计算资源。为了提高算法工程师训练模型的效率,我们使用Alluxio Alocityio进行改造,实现了文件读写性能50%以上的提升,同时显着降低了存储系统的成本和容量风险。

 

议题五17:00-17:45 Alluxio内存文件系统在搜狗的实践

讲者介绍:

肖邦,搜狗大数据平台高级开发工程师,主要负责致力于火花/蜂房计算引擎的开发与性能优化,结合Alluxio内存文件系统提升计算稳定性等工作

内容摘要:

本次分享主要包括了Spark shuffle基于Alluxio的优化,以及基于Alluxio对于临时表的性能改进:1。在搜狗大量的数据分析,知识图谱的数据制作使用Spark / SparkSQL来进行并行计算,大部分由于Spark On Yarn存在各类问题导致业务SLA水平仅为96%,结合Alluxio内存文件系统,我们将Spark业务的稳定性水平SLA提升到99.22%,广泛应用于数据分析以及高优先级业务中; 2.同时在搜狗存在部分任务使用蜂巢/火花临时表作为中间计算,使用Alluxio性能提升22.2%。目前Alluxio部署1000+机器上,运行了半年时间。

 

议题六17:45-18:30问答,交流

欢迎加群交流!

0 个人打赏
文章最后发布于: 2018-10-24 11:58:51
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 酷酷鲨 设计师: CSDN官方博客

打赏

开源调度DolphinScheduler

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

分享到微信朋友圈

×

扫一扫,手机浏览