加入收藏 | 设为首页 | 会员中心 | 我要投稿 源码网 (https://www.900php.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解

发布时间:2019-05-16 03:06:06 所属栏目:教程 来源:中国联通大数据
导读:副标题#e# 在上一篇文章【一篇运维老司机的大数据平台监控宝典(1)】中,我们介绍了目前联通大数据监控平台由Grafana+Influxdb+Prometheus+Alertmanager等组件组成,并且着重详述了以Grafana为核心的图形化展示功能。 本文继续针对运维监控体系的另一重要内

Fabric建立连接执行恢复命令。

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解

目前自动化恢复涉及的集群日常运维操作有:

  • 计算节点检测出使用swap交换分区,将会自动清理swap分区,并关闭swap分区。
  • 计算节点检测出时钟偏差,将会自动纠偏时钟偏差。
  • cloudera manager代理挂掉,将会自动重启。
  • 主机检测出有坏盘,坏盘更换完成后,自动恢复。
  • 角色实例检测出异常掉线,自动恢复上线。
  • 集群存在多个节点多块磁盘存储剩余空间不足,自动进行磁盘级别的数据balancer。
  • 集群存储达到阈值,自动进行节点级别的数据balancer。

需要提示的是,自动化恢复的适用场景很多,但并不适用于罕见故障且该故障有一定概率会影响到平台部分功能性能的情况,建议大家使用前严谨权衡、对症下药。

【本文是51CTO专栏机构中国联通大数据的原创文章,微信公众号“中国联通大数据( id: unibigdata)”】

戳这里,看该作者更多好文

(编辑:源码网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读