可扩展集成化云平台监控机制的实现
可扩展集成化云平台监控机制的实现
1 引 言
近年来,随着云计算技术的发展,对于云平台监控的需求越来越迫切. 作为云计算数据中心的
运维人员,需要随时关注服务器的性能指标,避免服务器性能降低甚至当机的风险. 通过云平
台资源的特点,可以知道云平台监控的主要难点集中在被监控的资源的多样性、动态性及规模
巨大这几个方面:
1) — 资源的多样性 云平台上的资源是多种多样的,从操作系统上分,包括
windows,linux,unix 等不同的操作平台; 从系统架构上分,包括如 cpu、内存、硬盘等底层的
硬件; 还包括如 mysql 数据库、apache 等各种应用程序和服务. 如何将这些复杂的资源进行抽
象分类,从而简化监控任务,是云平台监控的一个重大挑战.2) —资源的动态性 云平台上的资
源不是固定不变的,云平台的节点可以动态的增加或减少,云平台上的应用及服务也可以动态
的安装或卸载. 如何让云平台监控动态适应云平台变化,是云平台监控一个重大挑战.3) 资
—源的规模巨大 云平台往往包括成千上万计算节点,而每个节点上运行着各种应用软件和服
务,造成云平台资源规模巨大,这就给监控系统带来很大的负担,同时影响云平台的性能. 如
何提供一种对云平台影响较小,且监控效率较高的系统,是云平台监控的一个重大挑战.单一
的监控软件往往无法满足云平台被监控资源的动态性、多样性以及资源规模巨大的需求. 为全
面监控云平台资源,往往需要安装多种监控软件,在查询时需频繁切换不同软件,不利于实时
监控,同时增加了运维人员的工作量. 文献[2 ]提出一种基于 Ganglia 与MDS 结合的网格监
控体系研究,但该体系不具备可扩展接口,当现有软件需要升级或需要增加新的监控软件时,
只能通过手工修改代码来完成. 针对上述问题,提出一种可扩展集成化云平台监控机制,可以
灵活集成多种监控软件,以满足对云平台资源的监控需求,并有效减轻运维人员的工作压力,
提高工作效率.
2 相关工作
随着云平台的发展,人们越来越关注云平台上资源的运行和使用情况,以满足云平台监控使用
者及时掌握云平台的运行状态,因此,对云平台监控的研究也逐渐发展起来. 下面从学术界和
工业界两方面讨论云平台监控的相关工作.学术研究方面,在云计算技术发展之前,集群技术
以其高性价比、易于扩充与易于裁减等诸多优点已经成为高性能计算常见的解决方案,对集群
监控的研究也逐渐受到研究人员的重视. 随后对网格计算的研究,研究人员针对于网格环境中
的监控问题做了大量的研究工作,文献[5 ]对这些研究进行了概括性介绍. 文献[6]介绍了
监控在云计算中扮演重要的角色,有助于提高服务质量. 文献[7]介绍了一种云计算监控的
概要方法. 文献[8 ]中介绍了用 RESTful 方法来监控云计算平台上基础设施资源,如计算、
存储以及网络资源等,但是这样的监控架构只适合监控云平台上的基础设施层资源,对云平台
上运行的服务和应用监控存在不足. 文献介绍了一种分层的自适应的云监控架构,但其不支持
动态的集成监控软件,存在监控不足的情况.工业产品方面,随着云平台的广泛应用,许多适
合监控云平台的软件应运而生.其中,Ganglia 是UC Berkeley 的一个开源集群监控项目,用
于测量数以千计的节点. 文献[12 ]介绍了Ganglia 的主要优点有: 分层架构设计以适应大规
模服务器集群的需要,可扩展; 广泛支持各种操作系统,支持虚拟机.Cacti 是基于
PHP,Mysql,SNMP 及RRDTool 开发的网络流量监测图形分析工具. 通过增加模版和监控插
件,可以实现对大多数云平台资源的监控. Nagios 是用来监视系统和网络的开源应用软件,
其配置非常灵活,可以通过自定义shell 脚本进行监控服务,但它没有适合目标主机的可伸缩
内置代理.3 集成化云平台监控机制针对在云平台监控中遇到的被监控的资源的动态性、多样
性及规模巨大等难题,提出了一种可扩展集成化云平台监控机制,下面将从监控系统框架、监
控模型和监控软件集成方法三个方面进行介绍.
3 .1 监控系统框架
我们提出一种可扩展集成化云平台监控体制,可以在云平台监控系统的底层动态的增加监控软
件,以适应云平台资源的多样性和动态性的特点,这些操作对于使用者来说是透明的. 图1 是
监控系统框架图,将从云平台资源、监控数据的提取及存储、监控服务这三个方面介绍系统的
框架.
3 .1 .1 云平台资源根据云平台资源的特点,可以知道云平台被监控节点具有多样性,根据不
同的划分方法对被监控节点进行分类,具体分类如下:
1) — 操作系统不同 根据操作系统的不同分类可以将监控节点分为 window 系统监控节点和类
linux 系统监控节点.2) —应用和服务不同 由于被监控节点上运行着不同的应用程序及服务,
如对 mysql 数据库、apache 等应用服务以及 hadoop 分布式框架进行监控,不同的监控软件对
于服务和程序的支持不同.
3 .1 .2 监控数据的提取及存储首先对监控数据的完整性进行定义: 监控数据的完整性是指对
监控软件的数据进行即时保存,并保证对所有的监控数据进行准确保存,而不淘汰任何老数据.
一般情况下,监控软件会将监控数据存放在监控服务端的RRD 数据库中,RRD 数据库最大的
特点是以循环格式来存储数据,在持续插入新数据的过程中不断淘汰老数据,因此 RRD 文件
大小保持在一定的范围内. 这样不利于监控数据的完整保存,所以需要采用一定的方法将监控
数据存储到可保证数据完整性的数据库( 如mysql,mongodb 等) 中,并进行持久存储. 具体方
法如下:【图略】
1) —读取特定端口取数据 被监控的节点将监控数据通过特定的端口传输到服务节点,按照一定
的时间间隔去读该端口并获取 xml 数据,然后利用解析工具取得监控数据,最终存入可保证数
据完整性的数据库.2) —通过脚本转存数据 对于不易通过端口获取数据的监控软件,则需要通
过执行python 或shell 脚本将监控数据从 RRD 数据库转存到可保证数据完整性的数据库中,相
比于上一种方法,这种转存方式效率较低,实时性较差.
3 .1 .3 监控服务在介绍监控服务之前首先要明确监控服务的使用者,使用者定义如下:
监控服务的使用者主要包括运维人员以及最终使用者.运维人员是需持续关注云平台资源的使
用情况,并根据监控数据进行作业调度,任务迁移等操作的相关人员,另外运维人员还负责添
加监控软件,并进行相应配置.最终使用者是指需要查看云平台资源的状态,以及需要关注特
定资源使用情况的相关人员.基于监控数据完整性保存模块,云平台监控系统提供了配置引
擎、查询引擎、统计引擎和报警引擎四种功能引擎,并向上提供相应的功能接口.1) 配置引
擎: 当现有的监控系统无法满足着云平台资源的监控需求时,则可部署新的满足条件的监控软
件,并通过配置引擎建立或修改监控软件指标集与监控类属性集间的映射关系.2) 查询引擎:
系统默认向用户提供给定时间段的查询;另外系统还提供用户自己定义时间段,监控系统通过
一定的算法实现在这个时间段内的监控状态查询.3) 统计引擎: 系统向用户提供了监控集群以
及自定义子监控集群整体负载的统计.4) 报警引擎: 系统向用户提供系统设定阈值的报警,也
提供用户自定义指标的监控报警.
3 .2 监控模型
定义1 . 监控模型. 可扩展集成化的云平台监控模型可以定义为一个三元组: MM =
( MC,MS,MR) ,其中:1) MC 表示监控类,监控类可定义为一个二元组: MC =( ON,OP) ,
其中:( a) ON 表示监控类的名称( b) OP 表示监控类的属性集 2) MS 表示监控软件,监控软件可
定义为一个二元组:MS = ( SN,SV) ,其中:( a) SN 表示监控软件的名称( b) SV 表示软件监控的
指标集 3) MR 表示映射关系,定义如下:
设mc 是集合 MC 中一个监控类,对于?p1 mc∈ .OP,?ms MS∈,?v ms∈ .SV,?mr MR∈,
满足 mr( p1) = v,且对于?p2 mc∈ .OP,p1≠p2 ,满足 mr( p2) ≠v .定义2 . 监控对象 MO =
( ON,OP,OV,OT,MN) ,其中:
( a) ON 表示监控类的名称( b) OP 表示监控类的属性集( c) OV 表示监控对象的属性值( d) MT 表
示取得监控数据的时间( e) MN 表示监控数据属于哪个节点定义3 . 监控类实例化. 设mc 为
集合 MC 中一个监控类,mo 为集合 MO 中一个监控对象,对于?p1 mc∈ .OP,?p2 mo∈ .
OP ,且 p1 = p2,对于?p3 mo∈ .OP,?p4 mc∈ .OP ,且 p3= p4 ,则可称mo 是mc 的实例
化,记为mo≤mmc.定理1 . 如果某个监控类的属性与某监控软件的指标之间存在映射关系,
且一个监控对象是这个监控类的实例化,则这个监控对象的属性与该监控软件的指标之间存在
映射关系.证明: 设mc 为集合 MC 中一个监控类,mo 为集合 MO 中一个监控对象,根据定义
3,mo≤mmc ,对于 ?p1 mo∈ .OP,?p2 mc∈ .OP ,则p1 = p2,又根据定义1,?v ms∈ .
SV,?ms MS∈ ,满足 mr( p2) = v ,所以mr( p1) = v; 又根据定义3,?p3 mo∈ .OP ,且
摘要:
展开>>
收起<<
可扩展集成化云平台监控机制的实现1引言近年来,随着云计算技术的发展,对于云平台监控的需求越来越迫切.作为云计算数据中心的运维人员,需要随时关注服务器的性能指标,避免服务器性能降低甚至当机的风险.通过云平台资源的特点,可以知道云平台监控的主要难点集中在被监控的资源的多样性、动态性及规模巨大这几个方面:1)—资源的多样性云平台上的资源是多种多样的,从操作系统上分,包括windows,linux,unix等不同的操作平台;从系统架构上分,包括如cpu、内存、硬盘等底层的硬件;还包括如mysql数据库、apache等各云用程序和服务.如何将这些复杂的资源进行抽象分类,从而简化监控任务,是云平台监控的一...
相关推荐
-
2024年党建工作要点工作计划5篇供参考
2023-12-16 999+ -
2025年专题生活会对照带头严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”个人对照检查发言材料4110字文稿
2024-12-21 999+ -
2025年医保局局长、科技局领导干部专题“四个带头”方面对照检查材料2篇例文(附:反面典型案例剖析情况)
2025-02-09 458 -
2025年国有企业党委书记、市总工会党组书记民主生活会“四个带头”方面对照个人检查发言材料2篇文(附:典型案例、上年度整改+个人情况)
2025-02-09 507 -
2025年市委组织部部长、教育局党委书记生活会“四个带头”个人对照检查发言材料2篇文(典型案例+个人事项)
2025-02-09 627 -
2025年市财政局党组书记、局长、市检察院党组领导班子对照“四个带头”方面生活会个人对照检视发言材料2篇文(含以案为鉴反思、以案促改促治方面)
2025-02-09 509 -
市检察院党组、市财政局领导班子2025年生活会对照“四个带头”方面检视发言材料2份文【含以违纪行为为典型案例剖析】
2025-02-09 461 -
2025年市财政局领导对照“四个带头”生活会检视发言材料2篇例文【含以违纪行为为典型案例剖析】
2025-02-09 586 -
单位领导班子2025年聚焦“四个带头”生活会对照检查材料2篇文(含:典型案例剖析反思、落实意识形态责任制)
2025-02-09 758 -
2025年镇党委副书记、市科学技术局领导班子生活会对照“四个带头”检视材料2篇文【含违纪行为典型案例分析】
2025-02-09 257
作者:闻远设计
分类:其它行业资料
价格:免费
属性:4 页
大小:16.84KB
格式:DOCX
时间:2024-03-13

