天旦产品经理们在产品设计之初的用户调研中发现,分钟级对于绝大部分事件完全满足,但是对于一些比较敏感的核心业务,企业还是希望达到更为实时的监控。了解到这一点,BPC4.3大力革新告警规则的结构,将单一规则升级为多个维度、多个层级的复合型规则。打个比方:
•当被监控业务的成功率从100%下降到99.9%,BPC 只会提醒运维人员注意;
•而当下降到98%,BPC 就会全面告警并启动处理流程;
•重要性较低的周边系统可以以较长的分钟级刷新告警;
•核心业务模块则在秒级进行告警通知。
通过划分告警的不同级别,BPC4.3“云图智能告警”实现了对事件按照轻重缓急进行判断和匹配不同处理规则,既保证了告警的准确及时,又避免了告警系统遇事就喊“报告大王”,实现了运维作业的精细化管理。
一键分析故障域,排障的智能“金刚钻”
在过去,运维人员通过天旦BPC排障需要这样操作:
Step1获得告警信息
Step2进入历史视图查看指标变化
Step3在BPC中逐层钻取,深入分析
Step4最终确认故障原因并处理
而在BPC4.3的“云图智能告警”仅需2步:
Step1告警触发,告警通知同时呈现相应节点的指标变化(成功率、响应时间等)
Step2 一键完成故障域的自动下钻分析,呈现最终的故障原因和故障范围
全新“云图智能告警”组件大大缩短事件处理流程,让IT运维从“自动化”转变为“智能化”,提高运维部门响应速度,让告警排障紧跟IT运维的发展趋势。
AIOps:智能化是运维的未来
将天旦评为“全球最酷厂商”的 Gartner 在2016年提出了 AIOps 的概念(Algorithmic IT Operations,算法驱动的IT运维),并且预测:到2020年,全球50%以上的企业将应用 AIOps。而实现运维智能化则是天旦产品自始至终贯彻的前进方向,最终也形成了 BPC 领先行业的巨大优势:
智能发现:5年自研专利解码引擎,自动发现应用访问关系,自动解析业务数据内容。
智能梳理:服务路径图发现,自动梳理业务访问关系,呈现以服务为中心的拓扑视图。
天旦服务路径图发现,自动梳理业务访问关系,呈现以服务为中心的拓扑视图
智能告警:五大场景,识别高频业务故障,专有告警功能,精准捕捉并刻画故障异常。
智能预测:实时监控,智能算法自动根据历史表现绘制基线,直观发现变化趋势。
智能排障:自动定位故障节点,一键解析造成故障发生的维度和维度值。
通过总结大量现有客户部署情况和告警案例所得出的场景化告警模型,BPC4.3使得运维人员只需简单配置全面覆盖的告警规则,结合自动故障定位和自动故障域分析,加速故障发现和分析流程,缩短故障恢复时间。进化永远没有尽头,接下来 BPC 也将通过引入更多自动化组件及智能算法,最终实现全智能式的故障发现、分析、管理。
走出“有多少人工,就有多少智能”的怪圈
人工智能算法的成长离不开对海量案例的分析和学习,而现有的诸多所谓“AI告警”定制化方案受限于远远不足的真实情境下实操案例,需要在部署后耗费繁重人工进行后期调整维护,成为无法预估的人力和工时黑洞,而且算法效果极不稳定。
在这一点上,天旦作为企业级软件产品公司的优势得以凸显:通过提供全行业通用性的产品而非定制化的解决方案,使得智能算法真正成熟产品化,产品用户共享行业经验、共同受益;而国内银行Top150中120+家的广泛覆盖与横跨银行、证券、电信运营商、大型企业的多维度客户案例,也为算法的极速成长和精准智能提供了能量。天旦也将继续坚持企业级软件产品之路,努力将人工智能算法在运维领域产品化,并且全力推进 AIOps 的真正实现。