【必示说】第二期:《能力构建与场景实现双轮驱动,逐步完善智能运维体系》提出,企业智能运维系建设过程中,能力构建是顶层设计,场景实现是核心抓手。能力构建时应考虑平台、算法、应用和产业四种能力的构建和融合。而场景实现时应以要事优先的原则,通过场景驱动,先解决首要问题,再循序渐进完善智能运维系统。企业根据本底情况、首要解决问题、建设阶段以及数据质量情况的不同,建设路径并不是绝对的。而无论建设路径如何规划,“向智能运维系统要效果”是一定的。本期将围绕“智能运维系统效果实现”为主题,希望可以为计划和正在做智能运维落地的企业带来参考。

智能运维行业回归理性的标志-从AI到Ops

人工智能技术自1950年图灵测试开始,从理论研究、技术突破到实践落地,经历了漫长的过程。而在IT运维行业,根据当前AI3.0的理念(数据、知识、算法、算力),智能运维技术可以将运维知识,海量、高速、多元多模态的运维数据,同智能系统的算法和算力结合在一起,结合专家经验处理和解决运维问题。

根据Gantner的白皮书,对比智能运维在世界和中国范围内的成熟度曲线,中国在智能运维领域领先于世界平均水平,处于靠前位置,相对会更快地达到成熟落地阶段。从整体趋势来讲,中国的智能运维平台当前已经过了“对AI技术关注和预期超出现实”的过热期,将于2-5年达到最终成熟的实质生产阶段。“从AI到Ops,回归理性、注重在运维领域的实际效果”是当前智能运维行业的主旋律。
在这里插入图片描述

智能运维回归理性的障碍与应对之策

随着业务需求不断激增、新产品迭代越来越快,系统规模越来越大,运维数据愈发庞杂,以银行、证券、保险、运营商为代表的行业早已开启智能运系统的探索和落地实施。在此过程中有些运维人员产生了一些疑惑。总体来说,IT运维行业可以清晰地找到需要解决问题(运维人员面对海量运维数据无所适从),也有技术路径(智能运维技术),既然回归理性(成熟落地,解决运维问题),看起来貌似目标、路径都有了,但是效果有时却和想象的有些差距。其实从另一个角度来讲,追求效果本身也是智能运维行业逐渐回归理性的标志。

当人们遇到困境无所适从时,总是期待有个“超级英雄”横空出世,瞬间解决掉所有问题。而现实中,AIOps并不是可以瞬间解决所有问题的“超级英雄”,而是通过知识积累和机器学习,不断成长和提升,以人工协同的形式为运维人员服务的工具。智能运维系统出效果过程中障碍可能有很多,其中最重要的一点是没有对智能运维的具体效果达到全行业内产学研用的共识。智能运维从认知到落地实施出效果的环节有很多,从布道宣传、厂商产品的定位、市场营销介绍、售前工程师的讲解、POC的测试内容,然后进入到商业的采购招标参数、SOW交付物约定,用户、项目经理和领导对智能运维项目的理解和期待,最后到项目验收标准等。每个环节对智能运维的价值诉求和边界都有交叉又不完全重合,最终就导致了最开始的布道宣传环节和最后的验收环节具有明显的偏差。

在这里插入图片描述

目标和意识不一致,导致行动不一致,最终造成实施过程中产生大量的无用功。反之如果目标一致,就可以将目标抓大放小、合理分解和分工。所以智能运维在企业要想落地出效果,关键是可量化度量AIOps价值,并以此作为贯穿产品研发和项目实施全周期的核心抓手。

智能运维系统在企业成熟落地时,价值和效果是衡量落地成功与否的标准。对于“利用AI技术解决运维问题”的智能运维领域,无论是价值实践,还是效果实现,毋庸置疑地指向了IT运维系统的稳定性上。而每个需求的平台针对其要实现的功能,都应有可量化度量的价值,并由此设定目标。

企业在做智能运维系统规划时,无论是系统整体目标,还是分期建设的阶段性目标,都应对齐“可量化度量”的价值。而这对智能运维的服务商也同样适用,必示智能运维产品矩阵以“运维系统稳定性”为目标,从事前预测和防范、事中快速分析定位和处理、事后经验知识沉淀,并以此为循环,在防范和处理运维问题的同时不断提升智能运维平台能力,最终降低MTTR,延长MTBF。详见【必示说】第一期:以“运维系统稳定性”为目标打造智能运维产品矩阵。

智能运维“出效果”的阻碍与破解之道

AIOps系统本质上是一个以运维监控数据和运维领域知识为输入、算法和规则联动、各类组件并联串联、人机协同的大型分布式软件系统。在效果(价值)目标可量化和对齐的基础上,智能运维系统在具体落地实践中依然会受到数据范围、数据质量、组织架构、推动力度、资源投入、人员配合度、运维知识积累等多方面掣肘。

看起来困难重重,但具体实施中也是有成熟的方法支撑解决的。根据毛泽东《实践论》和达里奥“五步成功法”,在以“效果”为导向的智能运维系统的落地实施中,需要多方协作、不断迭代。

在这里插入图片描述
根据澳门大学倪明选老师的协“协作式迭代流程”应用于智能运维领域的思路,项目启动时,由领域专家给出大致的目标并经过三方讨论,在由数据科学家精准定义目标后,由工程师来搭建系统或实现分析算法。此过程中由数据科学家对系统或算法进行评估,如不满意就进入微迭代过程。由数据科学家与工程师讨论微迭代的解决方案并定义目标再进入实施和评估的过程。如结果满意,便进入与业务系统对接的“主迭代“过程,之后由领域专家评估业务对应结果后,再判断结果是否达到预期以及是否有新的需求…最终通过多方协作和循环迭代,解决智能运维系统在落地实施出效果所面临的具体问题。
在这里插入图片描述

智能运维系统建设可量化目标确定了,以出效果为导向的方法路径有了,那么最终如何衡量和评价当前智能运维效果?在具体项目验收时,既要摒弃“案例式”效果,同时也不要过度期待“生产效果”。在协作式迭代中对于结果的验收过程,“复盘效果+生产效果”才能客观反映智能运维系统的效果和价值。

结束语

在智能运维行业逐渐回归理性的趋势下,各企业都更关注效果和价值实现的问题。在以效果为导向的智能运维系统搭建过程中,首先要确定可量化度量和多方对齐的价值,并在此基础上制定全局或阶段性目标,引入协作式迭代流程来逐步解决问题,最后通过科学的“复盘效果+生产效果”来进行效果衡量。

必示科技服务了60余家以金融行业为代表的数字化转型头部企业,有很多企业在智能运维系统建设时均取得了不错的效果。我们将在【必示说】第四期:智能运维系统效果实现(下篇)总结我们服务过的企业在智能运维系统实践落地中“出效果”的经验,敬请期待。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐