监控分析是DCOS最核心的功能。为了更好的与上层资源运维做隔离,DCOS采用带外管理的方式尽量与上层业务做隔离。这种方式,可以在设备无论上层系统是否正常运行的情况下,都可以对设备进行监控分析。且带外的管理方式,可以保障带外的管理工作可以不影响正常的业务运行效率,同时也在一定程度上保证了业务数据的安全性。
DCOS主要可以从资源、机房、业务、设备等多种不同的视图监控数据中心的各种资源。不同视图下,可以随时查看设备的健康状态、性能状态,可以用列表以及多种图标形式更加自动化的直观展现。对于设备异常状态可以实现多途径的告警,包括邮件、短信、微信等形式。DCOS实行多级告警制度,根据告警的严重性分成不同等级。对于部分严重警告,可以设置告警升级规则,将告警自动化上报高层,实现问题的自动化升级。为了避免出现单一故障(如交换机故障)导致的与交换机连接的服务器同时报警所产生的告警风暴,DCOS可以实现对告警进行自动化的收敛,减少批量告警所带来的不必要的恐慌。通过这种方式,实现百分之百的硬件状态查看。
DCOS提供所有服务器远程虚拟KVM功能,不占用系统资源和网络资源、不需要安装代理程序(Agent)。同时,可以节省大量购买物理KVM费用等设备的采购费用。
DCOS通过带外方式自动化获取各个设备的主要性能参数,以图形化界面展示,或者生成报表,实现设备资产的大数据化,帮助分析设备资产资源利用率,更加合理利用、扩充的配备设备资产。
通过DCOS的监控、分析功能,可以有效的替代对于小型机、X86服务器、存储设备、备份带库、光纤交换机等设备的人工机房巡检。这种方式大大节省了人工巡检所需的人力,也提高了巡检的效率。整个监控、分析都有DCOS后台自动化执行,只需要人为干预去处理部分设备故障。调查显示,多数运维事故都是因为人为误操作而导致。相信大家还记得前不久发生的Gitlab运维人员误删库,导致Gitlab网站丢失了6小时数据。因此人为干预操作的减少,可以避免更多的运维事故。