北京2023年9月11日 /美通社/ -- 近期,国际权威研究机构高德纳(Gartner)发布中国AIOps市场指南报告《Market Guide for AIOps, China》,报告从数据中心运维需求变化、技术影响等角度,为中国的组织和I&O领导在采用或推进AIOps提供了深刻见解和实施建议。其中,浪潮信息InManage作为唯一的一款服务器厂商软件产品,凭借领先的AI能力,以及多个行业数据中心智能化运维的成功经验,获评AIOps标杆。
大模型对数据中心运维带来全新挑战
在AIGC等大模型创新技术的驱动下,算力成为了行业关注的焦点。为满足数字经济对于多元算力的旺盛需求,算力规模迅速增长,给数据中心运维带来全新挑战,构建智能化的运维管理AIOps 能力势在必行。
首先,数据中心运维的难度与质量要求不断提升。在大模型训练等负载的驱动下,数据中心部署了越来越多的设备与应用,这些设备与应用在架构、管理接口等方面存在很大差异,因此系统的复杂性与数据中心的不确定性增大,可能会对数据中心业务稳定性造成严重的影响。
其次是数据中心运维效率亟待提升。伴随着数据中心设备规模的不断增长与运维难度的提升,运维的工作量呈现出大幅增长趋势,大量重复冗余的工作不仅容易出错,也降低数据中心运维效率,亟需将运维人员从复杂、依赖人工的告警和修复等运维工作中解放出来。
再次是对数据中心设备故障智能诊断、预测性运维需求的提升。为保障数据中心稳定运行,需要尽可能地降低设备的故障率,通过精准的故障预警、预测性运维等方式,提前解决潜在隐患,提升数据中心各类 IT 资产的使用率。
同时,如何完善数据中心IT设备能耗管理是运维要考虑的一个关键。由于人工智能、数据分析、数据库等工作负载对计算能力的需求不断增长,以及半导体工艺的巨大改进,CPU、GPU等多元芯片已经集成了极多的晶体管。尽管单核功耗因工艺技术的改进而不断下降,但芯片的热设计功率 (TDP) 却由于性能大幅度的增长而在不断增加,数据中心能耗管理的不完善可能会导致部分设备随机断电或由于功率不足而出现性能降低等问题。
AIOps引领数据中心运维的进化之路
面对数据中心的多重运维挑战,AIOps即智能运维已被业界广泛使用。早在2016年,Gartner就已将AIOps纳入中国ICT技术成熟度曲线的关键技术,指出在人工智能、大模型等新技术的促进下,AIOps成为未来数据中心运维发展的重要方向,并呈现出快速替代传统运维的趋势。以软件定义、API驱动的AIOps模块化平台架构将有助于实现快速产品创新,将基础设施、运维纳入统一发展方向规划,具备统一数据采集、存储,强大的数据分析和机器学习能力,提供自动化运维和决策支持的能力并具备可视化的操作界面。
对于如今数据中心发展面临的挑战,AIOps提供了如下关键优势:
通过智能化的响应流程,以及数据驱动的决策支持,AIOps将极大将提升核心业务的稳定性和可靠性,保证业务持续运行,提升业务价值。同时,运维效率提升和成本降低将为企业释放更多的资源,用于核心业务的创新和发展。
在基于故障、告警触发的被动响应式运维的基础上,AIOps提供了主动智能止损、主动定位故障等能力,将引领数据中心运维从被动响应向主动预防、从主动预防向智能化预防不断演进。
AIOps将不断引入异常情况模拟等混沌工程能力,助力评估智能运维系统在故障发生时的弹性和可恢复性,监控系统在异常情况下的行为,有效识别和收集关键的运维指标和管理数据,从而通过迭代和改进来不断提高系统的运维能力和韧性。
随着人工智能等技术的不断发展,AIOps 还在不断进化之中,凭借着长期运维所积累的海量数据,以及飞速发展的大模型等应用,AIOps面临着新一轮技术创新的契机。例如,大模型在云事件管理、根因定位具体场景中的应用为AIOps开辟了新的领域,大模型的涌现能力,也在为AIOps技术的革新、提高AIOps运维效率提供了有效的支撑。
浪潮信息InManage 打造数据中心智能管理行业标杆
浪潮信息数据中心管理平台InManage顺应AIOps发展趋势,依托自研的面向基础设施的AIOps平台,有效解决局部硬件概率性故障下系统容错的问题,智能故障诊断和故障根因定位故障诊断率达到95%以上,硬盘故障预测可提前15天感知风险,内存故障预测准确率提高30%,此外,结合AI算法进行性能和容量预测,实现精准算力调配,让用户数据中心更加高效、稳定、可靠。
同时,InManage还在资产管理、监控管理、配置管理和能效管理方面提供一系列的智能化管理能力,帮助企业用户统一运维服务器、存储、网络等基础设施,提升运维效率和质量、降低运维成本:
智能资产管理:InManage结合智能网络自动发现技术和RFID射频识别技术,能够精准搜索和识别整机型和部件型资产,可以纳管400多种不同品牌不同类型的资产设备。借助自动拓扑与3D建模技术,InManage能够帮助用户构建数字孪生式资产可视化,清晰展示资产的网络架构、空间位置和关联关系,沉浸式了解资产状况。同时,InManage采用基于物联网(IoT)的技术方案,实现自动化的线上线下资产管理,支持自动巡检、资产报表、维保管理、出入库管控等功能,打通采购、使用、审计、财务壁垒,全面满足企业管理需求,运维工作量降低40%,资产管理效率提升90%。
智能监控管理:InManage通过"一中心多网格"的分布式设计,突破海量基础设施数据收集和分析的性能瓶颈,支持10万级IT设备的统一纳管。同时为保障数据中心稳定运行,InManage基于日志、指标、关系链等高维数据,能够进行特征构建、算法优化及模型训练、结合业界领先的运维专家库,实现对CPU、内存、硬盘,PCIe等设备故障的精准定位和故障预测,故障诊断率达到95%以上,其中,硬盘故障预测可提前15天感知风险,内存故障预测准确率提高30%。InManage基于自研的ETF无阈值告警算法,支持服务器集群性能和容量无阈值告警,告警准确率高达95.26%,极大提升数据中心运维效率。
智能配置管理:InManage 基于在线镜像平台实现服务器全量固件智能匹配和自动推送,遵循业务策略智能升级,实现零人工干预,升级效率800%。依托多年服务器运维经验和多行业客户需求,内置数百种开箱即用模板,涵盖全量固件升级、BIOS/BMC/RAID配置、电源策略、操作系统安装、压力测试、应用部署等运维场景,基于可视化编排,实现大规模服务器一站式智能上架和业务自动上线交付,有效地保障数据中心快速投产、可靠运行。
智能化能耗分析:InManage打通动环和IT能耗数据,通过多种智能化算法和模型,提供丰富的功耗策略,完成数据中心能耗优化和碳排放管理,实现机架密度优化,数据中心能耗调整可视化。同时InManage可分析用户服务器功耗和温度分布范围提供制冷方案,优化机房环境;分析数据中心空载服务器及服务器负载运行时间分布,优化业务系统;优化配置能源使用策略,管理服务器的功耗,能耗降低 15-20%。有效降低数据中心PUE,助力数据中心碳中和目标,推动绿色数据中心建设。
目前,浪潮信息InManage在海内外收获了广泛的客户认可,正在为全球互联网、金融、通信、IT、教科研等用户的数据中心提供全程无忧的运维服务。在科研高校,借助InManage平台,助力高校数据中心实现了服务器的智能化、一体化管理,运维成本降低50%,但整个数据中心的运维效率提高了10倍以上。在某世界TOP级银行巨头的数据中心,浪潮信息以"主备HA模式"部署InManage平台,管理规模超过10万节点,管理各项参数指标超过300万,覆盖了数据中心设备的所有组件,帮助该行数据中心运维效率实现3倍提升,保障业务稳定可靠运行。
在日新月异的数字化创新环境中,浪潮信息正在持续推进InManage的技术创新与场景化落地,助力数据中心运维效率、质量的提升,为更多企业的数字化转型赋能。