智能运维、自动化运维发展到现在,已经有将近7成的IT管理者学会利用大数据、人工智能产品及解决方案赋能团队,在生产效率、适应性和决策能力等层面实现了切实有效的正向转型。
今天的中国企业,已经在云端新基建、数字化转型的浪潮中实现降本增效和商业创新,海量的新应用、新技术不断冲击着传统IT运维的陈旧壁垒。传统的IT运维如何向智能运维进阶?这是优维人持续思考和实践的重要课题。
近日,优维科技联合创始人兼CTO黎明结合优维科技7年实践经验,全面剖析了优维AiOps的技术哲学。以下为访谈实录。
问:运维管理的发展历程都会经历哪些阶段?能否谈谈优维在运维领域的发展路径和现状?
黎明:我认为IT运维管理的发展大致会经历5个阶段,分别是标准化、工具化、自动化,数字化、最终是智能化运维。
结合优维多年在构建智能化运维平台的实践经验,这是一个相对客观且环环相扣的路径,我们没有直接跳到智能化阶段去,因为智能化的底层是以数据、标准以及自动化的能力为基础的。
另外,智能化实际上是为一些特定的场景服务的,并不是说单纯研发一个算法就能解决所有的问题。
这里我提一个与异常检测相关的场景:故障自愈。目前业界也有不少有益的探索和积累,总的来说落地效果还收到比较多的因素影响,比如金融行业因为受到合规性的监管要求限制,相当多必要的措施很难在短期内得到大规模的普及。以目前的技术发展程度来看,主要起到辅助的作用,实际上并不能完全代替人工快速定位出问题的根源。
问:优维科技在AiOps在容量规划和异常检测方面的场景应用表现如何?
黎明:谈到AiOps,大家经常会探讨容量规划和异常监测方面的场景应用。优维在这方面积累了非常丰富的落地经验。
首先,优维早在建设智能化的能力之前,就已经在数字化、标准化、自动化这几个层面打好了基础。在过去的几年中,我们给客户提供的方案也有意识地倾向于数字化运维、标准化运维以及自动化运维这“三驾马车”,我们的产品策略就是在夯实基础能力的前提下,再按需去做智能化的落地提升。
说到容量规划这个层面,首先我们要明确它可以解决什么问题?假设客户在运营一个大型的资源池,我们可以通过对用量数据、负载数据等历史数据的分析,实现对容量或者资源用量的一个预测。
这个预测不但支撑着扩容的需求,同时还要承担起容量规划的重任——例如说有的容量分配得太多了,就有必要进行适当的回收;或者阶段性的容量需求暴增,就需要提前做好采购计划。这是很典型的容量规划或者容量管理的场景。
根因定位也是一个比较有效的场景。我们用AiOps来平衡降低平均故障修复时间(MTTR)和延长系统无故障时间(MTBF)的相对关系。在这个语境里,MTBF引申出MTTR,在MTTR里又包含几个相关联的指标,比方说故障识别时间、故障定位时间、故障修复时间以及故障验证时间,只有把这些指标全部优化之后,才能达成MTTR、MTBF的优化。
这种根因定位可以有效的帮助客户减少故障定位的时间,从而使得MTBF、MTTR的指标得到系统性的优化。
问:优维科技在异常检测、容量规划、根因定位等这些层面的的规划过程中,AI算法在技术层面是怎么体现的?
黎明:关于AiOps的规划,其实并不会用到一些特别先进,或者市面上不曾出现过的算法和机制,都是对常用算法的调整优化。
容量管理的核心就是容量的预测,比如说存储容量、网络容量、计算容量的增长跟哪些指标有关系?本质上需要做相关性的分析,它的算法并不深奥。但是场景对于数据的准确性和质量的要求是非常高的,在对某一个应用、集群进行容量管理之前,首要工作就是明确该应用、集群本身的资源图谱有没有构建好。如果我们连一个应用、一个集群所覆盖的资源都没有精确的数据描述的话,那么所谓的AI算法得出来的结果肯定是不准确的。
问:在优维产品的规划当中,从您对产品的定义角度看,容量规划是否包含在AIiOps和智能运维这个模块里?
黎明:实际上我们的产品体系中并没有去规划某一个叫做AiOps的模块。
早在2016年AiOps这个概念刚刚诞生的时候,大家都认为这个概念就是应该以智能算法体系为主,但是经过这几年的实践,有了太多的踩空经验之后,大家突然发现并不是这样的。
第一,所谓的这种智能肯定是面向场景的;第二,智能不是一个通用的概念——优维在这么多年的实践中总结了一个表达方式,我们称之为“大场景,小算法”。例如说在我们的监控资源里对相应的指标趋势进行预测,本质上是把智能的功能揉到场景中去,它并不是一个脱离场景单独存在的产品。
问:作为一家以DevOps解决方案起家的科技企业,优维科技跟AiOps重叠的部分是哪一块?
黎明:优维对AiOps的定位,是在现有能力的基础上做智能化功能的延伸。业界有一种现象,不论原先是做ITSM的、做监控的还是做APM的,大家后来都转身去做了AiOps,说实话真的做得很成功吗?我觉得未必!这是一个很尴尬的事情。
所以,优维在这方面的策略相对“保守”一些,我们会在主要的产品线中加入智能的成分或者智能的功能,但我们不会对外宣称我们在做AiOps、智能运维、无人运维这种东西,我们是真正把AI的技术融到每一个产品的功能里面。
所以你会看到,我们把整体解决方案称作“智能化运维能力中台”,除此之外,优维其他的产品里并没有着重突出“智能”的概念,但是你能说我们的产品不智能吗?显然不能。因为我们确实赋予了它非常实用的智能化色彩。
问:现在也有一些传统IT厂商在做核心系统,它也会涉及到用AI的能力去为传统的IT系统或者解决方案赋能。优维在这个方面有什么创新性的做法吗?
黎明:很多传统IT厂商做核心系统的时候会面临传统IT系统和解决方案的AI化转型的问题,这是两种赋能的方式。
第一个方向是给现有的IT系统或解决方案赋能,在过去、现在以及未来的一两年内,作为一家提供产品和解决方案的DevOps厂商,我们还是会专注于为产品和场景注入AI能力,这是我们一直坚持深耕的方向。
第二个方向以AI能力来改变整个运维体系,或者以AI为动力去推进运维解决方案的创新,想要短期内实现还为时过早。
坦白讲,这是一个很难的事情。我们在过去几年接触了大量成熟的金融客户,也做了不少落地的AiOps项目,但是在生产环境中的使用表现并没有想象中乐观。
问:很多银行和传统的金融IT厂商也组建了专门做运维的团队,对金融行业而言,容量预测和异常检测在Ai赋能IT运维的过程中,哪个难度更大一些?
黎明:比如说我们在做指标监控的时候,按传统的做法需要设置系统的阈值,而部分指标的阈值是很难判定的。在这样的场景需求下,我们通过机器学习或者数据分析就可以判定出合理的阈值,通常说的异常检测,实际上就是一种基于动态基线或者动态阈值的异常检测。
当然了,具体的效果还是看具体的场景。另外,我并不认为容量预测和异常检测这两者哪一个更难一些,严格来说它们背后的技术实现难度都差不多。
问:优维在生产环境中应用最广泛的技术有哪些?
黎明:
第一,IT资源图谱,实际上就是新一代的CMDB。因为无论是要做预测还是做自动化,都需要有IT资源的图谱数据。这个是优维应用最广泛的一个产品。另外,优维在围绕构建资源图谱相关的一些技术,比如自研的图数据库引擎,在行业内都是比较高阶的存在。
第二,DevOps。其实DevOps底层还有一个支撑——AutoOps,只有实现了自动化,才能在自动化的基础上去构建DevOps。
第三,服务观测。我们从应用的角度看运维:第一它是否健康?第二它的资源运行状态怎么样?一旦出现问题,是否可以快速帮助运维人员定位问题源头,同时判断这个事件可能会影响到什么系统?归根结底到底什么才算智能?
我认为不一定非得用到智能算法、数据分析的才算智能,只要是能提高现有的运维效率的,并且是传统工具、传统手段做不到的,都可以认为是智能。
问:业界普遍认为,优维的产品服务覆盖的客户比较广,优维的核心技术维度主要应用在哪些行业?这些行业对优维解决方案的需求是刚性的吗?
黎明:主要在金融行业,同时也在其他行业做了大量的布局,但我们并不会特别关注行业属性,而是侧重产品在”双态”运营中的表现。
一般来说,像金融、保险、物流等大型业态,甚至国企、央企等国家巨头企业,基本上都是处于一种稳态的现状,但是在当前的“新常态”下,稳态的同时它又要做数字化转型,这必然会带来敏态业务。
所以很多企业,无论当下它是处在敏态还是稳态,都会面临“双态运维”的场景需求,基本上优维做的就是解决稳态的问题,至于敏态,因为原生服务技术本身已经具备解决问题的能力,其实就不需要重复解决。
但我们早在去年就已经推出了SaaS化和订阅化产品,也就是逐渐被大家所熟知的HyperInsight超融合持续可观测解决方案,这款产品在行业里属于新生事物。我们认为企业IT管理中所面临的问题和需求,是可以被标准化和针对性解决的。
对于企业的敏态需求,我们的SaaS产品输出的是开箱即用的精细化套件式服务,体量小,开发需求轻量化,但解决问题快准狠。这很符合优维科技的产品哲学,我们很乐于把技术创新精神发挥在客观实际当中,去解决实实在在的问题。
问:就敏态来说,现在很多企业都是混合IT的架构,会涉及跨云管理需求,那么优维在这方面有没有提供相关的解决方案?
黎明:优维目前没有“跨云管理”或者“多云管理”平台产品,但是我们的IT资源图谱是完全可以横向覆盖敏态和稳态管理要求的。
因为无论是敏态还是稳态,它们的应用都离不开IT资源的支撑,云上资源也好,本地自有资源也好,支撑资源和应用组成资源图谱,然后再做自动化衍生场景,逻辑上归根结底都是相通的。
问:关于分布式系统、算法、数据管理等,优维有没有比较突出的、先进性的概念或理念?优维最大的优势和技术特点是什么?
黎明:首先,优维把数据治理的理念引入运维体系建设中,把IT资源图谱作为驱动整个运维体系的主数据中心,这个理念在业界是领先的。因为通常情况下大家很难想到运维数据之间到底有什么必然的联系,但我们对这个梳理得很清楚。
第二,围绕着资源图谱,我们有自主可控的自有技术,包括但不限于基于图谱数据库的存储引擎、基于图谱的查询等完全自主知识产权的技术。
第三,我们具备“能力化”的建设能力,优维带给客户的不是具体的哪个产品或功能组件,而是赋予其能力。
第四,优维特别注重场景建设,我们赋予客户的能力一定要用到场景里去,离开场景谈能力是一种空谈。例如我们面向场景开发的护网、巡检、切换等微应用,对于客户来说是非常有价值的。
第五,优维在交付方案和产品的同时,也非常注重给客户进行DIY赋能。例如我们运维的低代码开发平台,本质上就是提供给客户的技术工具,客户借助低代码平台技术可以定制自己的微应用,从而满足其频繁变动的运维需求。
“授人以鱼”也“授人以渔”,这是优维在过去的六七年中总结出来的服务理念和产品思路。
问:未来的三到五年,AiOps的规划方向在哪里?AI在实际的运维场景中还会有哪些拓展?
黎明:现在运维数字中台的技术已经非常成熟了,在未来的三五年的发展中一定会是普及的趋势,也会有越来越多的企业逐渐认识到数据治理、数据运维在整个运维体系中的重要性。
优维在AI运维场景领域的拓展方向一定还是“赋能”,我们有个理想叫“AI anywhere”,就是把AI技术用到每一个角落里去,不断落地“大场景,小AI”的运维哲学。
如果说AI领域技术有所突破的话,我们肯定也会跟进。
但就目前而言,AI技术还不具备思维能力,虽然在日常生活场景中我们可以做到指纹识别、人脸识别、声音识别等等这些识别动作,但对于运维行业来说,我们还在等待AI技术质的飞跃,期待AI真正能为我们的运维业务带来思考和决策的能力,这个才是AiOps最为浪漫的时代。
目前的AI技术离那一天还有很长的路要走,我们会持续努力。
伴随着大数据平台、机器学习等关键技术的日臻完善,智能运维势必乘风而起,成为运维领域未来的重点演进方向。目前,智能运维在国内仍处于初始发展阶段,但从Gartner发布的IT运营技术成熟度曲线变化来看,智能运维在国内的发展快于全球的进展。这既是巨大挑战,同时也是全新机遇,或将实现国内运维发展从跟随到引领的重大跨越。
知大势,行致远,我们在智能运维的大道上一起向未来!