加入收藏 | 设为首页 | 会员中心 | 我要投稿 源码网 (https://www.900php.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

Hadoop YARN:调度性能优化实践

发布时间:2019-08-02 23:04:47 所属栏目:教程 来源:世龙、廷稳
导读:副标题#e# 背景 YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。 美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。 离线业务主要运行的是Hive on MapReduce, Spark SQL为主的

在系统中,定期对oldResourceUsage和newResourceUsage进行比较,如果发现数据不一致,说明优化的算法有bug,newResourceUsage计算错误。这时系统会向RD发送报警通知,同时自动地将所有计算错误的数据用正确的数据替换,使得错误得到及时自动修正。

总结与未来展望

本文主要介绍了美团点评Hadoop YARN集群公平调度器的性能优化实践。

  1. 做性能优化,首先要定义宏观的性能指标,从而能够评估系统的性能。
  2. 定义压测需要观察的细粒度指标,才能清晰看到系统的瓶颈。
  3. 工欲善其事,必先利其器。高效的压力测试工具是性能优化必备的利器。
  4. 优化算法的思路主要有:降低算法时间复杂度;减少重复计算和不必要的计算;并行化。
  5. 性能优化是永无止境的,要根据真实业务来合理预估业务压力,逐步开展性能优化的工作。
  6. 代码上线需谨慎,做好防御方案。

单个YARN集群调度器的性能优化总是有限的,目前我们可以支持1万节点的集群规模,那么未来10万,100万的节点我们如何应对?

我们的解决思路是:基于社区的思路,设计适合美团点评的业务场景的技术方案。社区Hadoop 3.0研发了Global Scheduling,完全颠覆了目前YARN调度器的架构,可以极大提高单集群调度性能。我们正在跟进这个Feature。社区的YARN Federation已经逐步完善。该架构可以支撑多个YARN集群对外提供统一的集群计算服务,由于每个YARN集群都有自己的调度器,这相当于横向扩展了调度器的个数,从而提高集群整体的调度能力。我们基于社区的架构,结合美团点评的业务场景,正在不断地完善美团点评的YARN Federation。

作者简介

世龙、廷稳,美团用户平台大数据与算法部研发工程师。

(编辑:源码网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读