从被动运维到智能预警:某省人防办借力智和信通运维方案实现效能跃升
某省人民防空办公室承担着人民防空通信、警报网的建设和管理、人民防空信息化建设等重任。其网络系统是支撑指挥通信、应急响应、日常办公的核心基础设施。为确保网络高可用性、数据安全性和服务连续性,需部署一套完善的网络监控平台对人防办整体网络进行实时监控和运维。
本次项目建设以实现网络基础设施实时监控、故障预警和定位、网络架构和运维数据可视化展示等为目标。
网络基础设施实时监控
对H3C交换机、华为交换机、浪潮服务器、海康摄像头、大华硬盘机、绿盟防火墙、达梦数据库等网络基础设施进行24小时不间断实时监控。对于人防办后期网络扩容和设备更替等场景,也可通过智和网管平台灵活的设备和自用模型库进行扩展。
目前,监控指标涵盖带宽利用率、延迟、丢包率、CPU使用率、内存使用率等,也可通过模型库对性能、故障等指标进行扩展。
设备类型 | 监控指标 |
交换机 | 电源、风扇、温度、CPU使用率、内存使用率、网口状态、输入/输出流量、输入/输出带宽利用率、输入/输出速率、抖动、时延等 |
服务器 | CPU使用率、内存使用率、磁盘使用率、磁盘可用空间、磁盘容量预测、输入/输出流量、输入/输出带宽、输入/输出速率、丢包率、进程、通信端口状态、温度、电源、风扇等 |
数据库 | 活动连接数、当前打开线程数、被阻塞会话数、读写命中率、缓冲池利用率、读写速度、读写次数、表空间大小、可用表空间大小、表空间使用率、当前锁总数、死锁数、等待锁数等 |
摄像头 | 色偏、清晰度、亮度等视频质量,码率、输入通道数、输出通道数、CPU使用率、内存使用率、接收/发送流量、 等 |
防火墙 | CPU利用率、内存利用率、吞吐量、时延、抖动、丢包率、带宽利用率、攻击统计、规则使用趋势、访问次数总量、攻击次数总量等 |
搭建清晰易观测的网络拓扑
在本次项目中,用户的网络场景处于地下人防工程中,地形复杂造成网络结构难以梳理和呈现。
因此在实施的过程中,智和信通采用自动发现的方式,智能发现地下人防工程中各类网络设备并生成网络拓扑图。再结合自动布局和手动调整功能,根据用户实际网络结构,采用层级下钻+平铺的形式呈现拓扑架构。
全网基础设施运行性能监控
全方位收集、处理、展现全网基础设施运行状态数据,涵盖实时性能监控、历史趋势回溯及设备状态比对,借助折线图、饼图或仪表盘等直观形式,用户可按小时、日、季度灵活查看运行指标波动。运维团队能够即刻洞悉设备状态变化趋势,于问题萌芽前采取行动,确保运维无忧。
自定义故障分级管理
方案融入了多样化的告警机制,用户可根据实际需求配置告警策略,如设备故障、流量异常、安全风险等,并根据不同故障等级设置差异化告警阈值。通过主动监控能力,将零散的性能指标、运行状态、设备日志等信息智能整合成当前设备的综合状态评估结果,并对异常状态发出告警。
智能告警降噪,拓扑定位异常节点
通过统一的故障中心,实现整个网络中各种事件信息、设备故障、流量异常等告警信息的集中管理。提供智能告警降噪收敛策略,对无效告警进行抑制,提升告警准确度。
同时,当设备、资源、链路出现异常告警时,通过不同颜色展示其故障等级,帮助运维人员实时了解网络架构及全网运行状态,快速定位异常。
分级告警通知,第一时间触达用户
根据告警级别结合故障设备所处网络配置告警策略,不同级别告警分别通知该网络、设备负责人。在告警通知途径上,全面覆盖界面颜色、提示声、光效闪烁、信息列表、Email、短信、钉钉、企业微信、个人微信等多种通知渠道,通知无延迟,可第一时间触达用户,帮助运维人员迅速定位故障点,采取相应措施进行处理。
通过部署智和网管平台实现对人防办网络设备的集中管理, 7×24 小时不间断监测,随时掌握网络运行状态。一旦出现网络故障或异常波动,系统会迅速发出预警信息,使运维人员第一时间察觉并定位问题,大幅缩短故障排查时间,降低因网络中断对人防业务的影响。
凭借平台强大的数据分析处理能力,对网络中各类设备负载、网络流量等数据进行挖掘分析,构建动态网络运行模型,预测网络运行趋势,提前发现潜在问题,协助运维人员采取主动防范措施,变被动响应为主动维护,将故障风险消除在萌芽阶段,显著提高网络运行的稳定性与可靠性。
通过平台的自动化巡检功能,将原属于人工巡检的工作固化到平台内。根据用户巡检规则,预设巡检范围和巡检事件,自动巡查网络内设备的当前运行状态,并向指定邮箱发送结果报告。
此外,基于AI数据分析技术对网络运行情况进行量化评估,生成详细的报表和分析报告,辅助运维人员掌握网络态势、预判风险趋势,为人防办运维工作的优化提供数据支持。