数据中心硬件监测解决方案


一、        产品背景

随着信息技术和网络应用的发展,特别是云计算和虚拟化的大规模采用,加速了数据中心建设的发展。数据中心对于垂直层级比较多的政府和企业来说,是信息处理的中心。企业IT架构的不断扩展,服务器、存储设备等网络单元的数量和规模日益庞大,业务系统也日趋复杂。

在数据中心建设中,存在多个品牌、多个来源的网络设备、互联模块,使得数据中心机房内设备硬件系统异构复杂。在这种复杂性的驱使下,数据中心建设与运维脱节,设备信息无法完全掌握,过保后维护困难,有些设备甚至处于“无证驾驶”的状态,导致先知先觉的处理运维工作变得越来越困难。

二、        系统概述

为了解决用户在日常运维中遇到的以上棘手的问题,凭借自身多年的数据中心运维服务经验,总结出多个在日常运维中遇到的难点痛点,推出云计算数据中心设备性能智能感知与风险防御智能运维系统解决方案,帮助用户应对数据中心运维中遇到的挑战。

        本系统采用B/S架构,支持IEFirefoxChromeOpera等浏览器访问,通过浏览器可以完成所有配置管理功能以及运行状态输出。

        系统可部署于云计算数据中心内网服务器,用于监控数据机房内的服务器以及IT网络设备,旨在收集链路中设备状态数据并进行分析,以保证数据链路安全稳定。

三、        产品特点

       1.      打破异构系统环境的壁垒,减少硬件设备不同厂商来源的制约

系统可以同时对多个品牌不同型号的网络设备及模块,进行状态采集并统一整理,基于自有知识产权的软件架构,以更符合企业使用习惯于管理方式的方案,消除因异构品牌及型号所带来的运维方式差异,便于对异构硬件设备间的网络链路进行整合分析。

2.      大数据分析、专家经验库、机器学习对设备可靠性进行分析,预测发生故障的概率

系统对链路质量进行跟踪分析,在链路质量变差时,做到硬件故障预测及提前发现,主动防御,提醒用户对潜在问题的硬件设备模块进行提前更换,消除95%以上的硬件突发故障,减少运维中需要应对突发状况而准备大量备品备件的压力。

3.      态势全面感知,主动防御,解决IT运维面临的最大难点与痛点

系统通过对网络设备、互联设备的设备运行状态及相关信息进行实时的收集和整理,当网络发生故障时可以迅速确认故障点位置,并进行告警提醒,辅助用户快速排除故障。

4.      详实的数据报表管理

    系统支持多项KPI指标查询,可自定义多个配置、告警、性能分析模块,并可导出成WordExcelPDF等格式的文档。清晰、准确的图表展现,充分发挥存储信息集中化分析的优势,方便运维人员对运维数据进行分析,查找系统性能瓶颈。

四、        系统介绍

        1.      系统框架结构

系统框架结构一共分为4层,如上图所示,详细如下:

1)采集层:通过多种采集接口与被监控设备通讯并获取所需数据;

2)数据层:将采集层获取的数据存储在本地,并进行简单封装,提供数据库事务、分布式事务支持,为数据库操作提供必备的保障;

3)功能层:通过调用数据层数据,对被监控设备进行分析处理,实现多项功能,并提供外部访问所需接口;

4)展示层:将功能层所处理的结果进行3D展示和状态展示等。  

        2.       业务流程图

        3.      实时监控

    通过对数据中心IT网络设备及服务器的管理接口进行访问,获取该设备的运行参数,对多个不同品牌的异构数据进行数据清洗,并将规范化的数据记录在本地数据库内。后台系统对数据库内指标进行实时监控分析,当遇到异常数据时进行告警。

        4.      趋势预测

    后台系统对设备数据进行较长时间尺度的趋势分析,对关键性能指标进行长期跟踪,通过大数据分析、经验模型、机器学习等手段对设备可靠性进行预测,在到达设备预测寿命之前提醒用户及时进行更换,避免因设备不稳定而造成的链路故障。

        5.      专家决策

    系统通过将链路两端设备模块相关联的方式,记录链路质量并形成链路档案。后台对链路质量进行实时跟踪分析,通过经验库模型对多个可能出现问题的隐患进行故障概率预测及排序,通过TOP N展示的方式及时指导用户解决故障优先级较高的隐患,保障链路安全。  

        6.      资产管理

    系统可以对用户内网内的资产设备进行登记,详细记录资产设备的名称、管理IP、品牌、序列号、资产类型、集成商信息、联系方式、保修时间、机房位置、上架日期等,并支持导入导出。系统后台会随时跟踪资产设备维保记录及故障记录,并对同品牌及批次的故障问题进行汇总,具体分析是否整个产品批次共性。当保修快到期时,可提示用户及时续期。

五、        总结

本系统有助于提高企业运维监控水平和故障响应能力,提升生产运维管理的整体水平和质量。本系统采用标准的技术集成手段实现对监控工具的数据和功能的集成,实现对故障的快速定位和关联性分析,根据预先设定的重要监控指标,实现集中监控、及时报警、快速定位故障的双保险、层次化多维管理视图的运维模式,提高事件诊断和故障解决效率,确保企业数据中心的安全运行。

云计算与数据中心硬件设备性能智能感知与风险主动防御系统致力于解决数据中心运维中存在的盲点,为日趋复杂的数据中心硬件提供统一监控能力,打破硬件厂商的技术壁垒,构建统一的管理平台,结合自身累积多年的丰富运维经验,与您一起应对数据中心运维工作,赋予IT运维管理团队灵活且经济适用的企业级监控与故障诊断能力。

 

附: 某数据中心应用案例

        1.使用目的

旨在对数据中心的异构设备(包括不同品牌和来源的交换机,路由器及服务器等)硬件信息进行统一的实时数据采集、分析、运行记录、故障诊断及态势预警。

        2.部署方案

不同品牌型号的网络设备均有标准管理接口,将本系统部署在内网服务器,通过访问设备标准管理接口,定时收集并保存有关硬件的运行数据,后台分析实时数据和历史数据,及时帮助用户发现并解决问题。

        3 .工作流程

①收集数据:通过标准管理接口从不同品牌型号的交换机、路由器和服务器中采集硬件运行数据,如端口工作速率、吞吐量、模块光功率、CPU温度、内存使用率、风扇转速等。

②储存数据:对采集到的不同厂牌格式的原始数据信息进行数据清洗,达到数据的归一化、标准化。建立对应的数据库表,并将清洗后的数据存储在其中,方便后续数据分析工作调用。

③分析数据:后台实时分析数据库表储存的数据,找出异常的数据并实时告警,及时发现并解决问题。统计长期以来的运行数据并定期输出数据报表,通过大数据方式分析硬件性能变化趋势,便于运维人员从宏观上掌控网络运行情况及链路存在的隐患。 

        4.数据存储方案

①静态数据:正常情况下在硬件设备运行过程中不会经常改变的数据,包括:系统信息,名称,接口数目及类型等等。这类数据在启动的时候收集一次即可。

②动态数据:设备动态运行的数据,包括端口工作速率、流量、CPU使用率、内存使用率等。这类数据定期动态收集保存。