大数据分析界的“神兽”Apache Kylin初解

发布时间：2021-03-06 02:29:21 所属栏目：大数据来源：网络整理

导读：副标题#e# 转自李栋，来自Kyligence公司，也是Apache Kylin Committer PMC member，在加入Kyligence之前曾就职于eBay、微软。今天分享的主题是：聊聊“神兽”Apache Kylin的最新特性。本次分享将首先对Apache Kylin进行基本介绍；接下来介绍1.5.x最新版本

Kylin提供了一个原生的Web界面，在这里，用户可以方便的创建和设置Cube、管控Cube构建进度，并提供SQL查询和基本的结果可视化。

大数据分析界的“神兽”Apache Kylin初解

根据公开数据显示，Kylin的查询性能不只是针对个别SQL，而是对上万种SQL 的平均表现，生产环境下90%ile查询能够在在3s内返回。在上个月举办的Apache?Kylin Meetup中，来自美团、京东、百度等互联网公司分享了他们的使用情况。例如，在京东云海的案例中，单个Cube最大有8个维度，最大数据条数4亿，最大存储空间800G，30个Cube共占存储空间4T左右。查询性能上，当QPS在50左右，所有查询平均在200ms以内，当QPS在200左右，平均响应时间在1s以内。

大数据分析界的“神兽”Apache Kylin初解

北京移动也在meetup上展示了Kylin在电信运营商的应用案例，从数据上看，Kylin能够在比Hive/SparkSQL在更弱的硬件配置下获得更好的查询性能。

大数据分析界的“神兽”Apache Kylin初解

目前，有越来越多的国内外公司将Kylin作为大数据生产环境中的重要组件，如ebay、银联、百度、中国移动等。大家如果想了解更多社区的案例和动态，可以登录Apache Kylin官网或Kyligence博客进行查看。

大数据分析界的“神兽”Apache Kylin初解

3.Kylin的最新特性

Kylin的最新版本1.5.x引入了不少让人期待的新功能，可扩展架构将Kylin的三大依赖（数据源、Cube引擎、存储引擎）彻底解耦。Kylin将不再直接依赖于Hadoop/HBase/Hive，而是把Kylin作为一个可扩展的平台暴露抽象接口，具体的实现以插件的方式指定所用的数据源、引擎和存储。

大数据分析界的“神兽”Apache Kylin初解

开发者和用户可以通过定制开发，将Kylin接入除Hadoop/HBase/Hive以外的大数据系统，比如用Kafka代替Hive作数据源，用Spark代替MapReduce做计算引擎，用Cassandra代替HBase做存储，都将变得更为简单。这也保证了Kylin可以随平台技术一起演进，紧跟技术潮流。

大数据分析界的“神兽”Apache Kylin初解

在Kylin 1.5.x中还对HBase存储结构进行了调整，将大的Cuboid分片存储，将线性扫描改良为并行扫描。基于上万查询进行了测试对比结果显示，分片的存储结构能够极大提速原本较慢的查询5-10倍，但对原本较快的查询提速不明显，综合起来平均提速为2倍左右。

大数据分析界的“神兽”Apache Kylin初解

除此之外，1.5.x还引入了Fast cubing算法，利用Mapper端计算先完成大部分聚合，再将聚合后的结果交给Reducer，从而降低对网络瓶颈的压力。对500多个Cube任务的实验显示，引入Fast cubing后，总体的Cube构建任务提速1.5倍。

大数据分析界的“神兽”Apache Kylin初解

目前，社区正在着手准备Apache Kylin 1.5.2版本的发布，目前正处于Apache Mailing list投票阶段，预计将会在本周在Kylin官网发布正式下载。

在本次的1.5.2版本中，Kylin带来了总计 36个缺陷修复、33个功能改进、6个新功能。一些主要的功能改进包括对HyperLogLog计算效率的提升、在Cube构建时对Convert data to hfile步骤的提速、UI上对功能提示的体验优化、支持hive view作为lookup表等等。

另一个新消息是Kylin将支持MapR和CDH的Hadoop发行版，具体信息可见KYLIN-1515和KYLIN-1672。相应的测试版本是MapR5.1和CDH5.7。

UI上提供了一个重要更新，即允许用户在Cube级别进行自定义配置，以覆盖kylin.properties中的全局配置。如在cube中定义kylin.hbase.region.count.max可以设置该cube在hbase中region切分的最大数量。

大数据分析界的“神兽”Apache Kylin初解

另一个重要的功能是Diagnosis。用户经常会遇到一些棘手的问题，例如Cube构建任务失败、SQL查询失败，或Cube构建时间过长、SQL查询时间过长等。但由于运维人员对Kylin系统了解不深，很难快速定位到root cause所在地。我们在mailing list里也经常看到很多用户求助，由于不能提供足够充分的信息，社区也很难给出一针见血的建议。

当用户遇到查询、Cube/Model管理的问题，单击System页面的Diagnosis按钮，系统会自动抓取当前Project相关的信息并打包成zip文件下载到用户本地。这个包会包含相关的Metadata、日志、HBase配置等。当用户需要在mailing list求助，也可以附上这个包。

大数据分析界的“神兽”Apache Kylin初解

当一个cube构建任务执行失败或时间过长，用户可以单击Job下的Diagnosis按钮。同样的，系统会抓取和下载Job相关信息成一个zip包。

大数据分析界的“神兽”Apache Kylin初解

我是本次Kylin1.5.2版本发布的release manager，欢迎大家到apache kylin邮件列表积极参与release投票。

如果有朋友想更加系统地学习如何高效使用Kylin和进行二次开发，欢迎大家报名Kyligence正在推出的《Apache Kylin开发者认证培训》，可以登录http://kyligence.io/training了解相关信息。

大数据分析界的“神兽”Apache Kylin初解

Q&A

Q1、对mdx支持情况如何？

A1：我们现在不支持MDX查询，查询入口是SQL，像saiku这种基于MDX的操作，社区已经有人贡献了Mondrian jar包，可以将saiku 前台提供的mdx转换为sql，再通过jdbc jar发送到Kylin server，不过功能上有所限制，left join,topN,count distinct支持受限。

Q2、麒麟针对出来T级别的数据，每日制作cube大约话费多久时间？

A2：具体cube构建时间视不同情况而定，具体取决于dimension数量及不同组合情况、Cardinality大小、源数据大小、Cube优化程度、集群计算能力等因素。在一些案例中，在一个shared cluster构建数十GB的数据只需要几十分钟。建议大家在实际环境先进行测试，寻找可以对Cube进行优化的点。此外，一般来说，Cube的增量构建可以在ETL完成后由系统自动触发，往往这个时间和分析师做数据分析是错峰的。

Q3、如何向kylin提交代码?

A3：将修改的代码用git format-patch做成patch文件，然后attache在对应的jira上，kylin committer会来review，没有问题的话会merge到开发分支

Q4、如果数据是在elastic search，Kylin的支持如何?

A4：目前还不支持直接从es抽取数据，需要先导出到hive再做cube build；有兴趣的同学可以基于kylin 1.5的plugin架构实现一个es的data source。

Q5、工作的比较好的前端拖拽控件有什么？

A5：目前应该是tableau支持较好，saiku支持不是很好，有些场景如left join,count distinct,topN支持不是很好，用户是可以基于Api开发自己的拖拽页面的。

Q6、社区版和商业版功能上有什么区别？

A6：商业版能够提供更高的安全性、稳定性、可靠性，以及企业组件的良好集成；以及可靠、专业、源码级的商业化支持。

Q7、对多并发支持表现如何？

A7：Kylin和其他MPP架构技术想必一大优势就在高并发。一台Kylin的Query Server就支持几十到上百的QPS (取决于查询的复杂度，机器的配置等因素)，而且 Kylin支持良性的水平扩展，即增多kylin server和HBase节点就可迅速增大并发。

Q8、kylin可以整合spark machine learning和spark sql吗？

A8：基于前面讲到的可插拔架构，是可以整合的。

Q9、跟其它工具对比，有没有考虑cube的构建时间？因为人家是实时计算的，你是预计算的，这从机理上是不一样的

A9：kylin跟其它mpp架构的技术在查询性能的对比，时间里是不含cube构建的时间的，所以从某种意义上来讲这样的对比是有些不公平。但是，从用户角度来看，分析师和最终用户只关心查询性能，而Kylin用预计算能大大提高查询速度，这正是用户所需要的！

Q10、Kylin ODBC 驱动程序有示例代码？

A10：目前代码在master分支，欢迎大家加入社区一起贡献。

Q11、4亿数据有点少，麒麟有没有做过相关的benchmark ，在百亿级别数据，十个纬度的情况下，表现如何？

A11：来自社区的测试数据，在一个近280亿条原始数据的cube（26TB）上，90%的查询在5秒内完成。

Q12、数据量翻倍的话,空间使用会做指数级增长么

A12：通常cube的增长与原数据的增长基本一致，即原数据翻倍，cube也翻倍，或者更小一些；而非指数增长。

Q13、Data Model和Cube Model构建过程能根据UI步骤详细讲下吗？

A13：欢迎登陆Kylin网站，查询具体的使用教程。http://kylin.apache.org/

Q14、你好，相关链接能贴一下吗，谢谢！来自社区的测试数据，在一个近280亿条原始数据的cube（26TB）上，90%的查询在5秒内完成。

A14：http://www.docin.com/p-1497646649.html

（编辑：源码网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

在云中实施大数据的详	未来大数据时代下的智
到底什么是B端产品的用	为了不emo，我将自己培