人工智能与运维的碰撞火花之Aiops
课工场 | 2021-08-27 10:32:51  176 浏览

在互联网圈儿内有一号人,他们的存在就像Wi-Fi,在的时候你感觉不到,但要是没了却非常着急,他们就是运维。服务在线上不可用了,找运维;网不好使了,找运维。

运维就是管机器、管网络、管服务的人。运维的发展分三个阶段。

第一阶段之手工运维,早期的时候互联网发展的比较缓慢、各网站接入的网民数量比较少,依靠运维人员手工即可保障业务系统的正常运行。

第二阶段之自动化运维,这一阶段互联网开始进入高速发展阶段,依靠手工效率低、成本高,通过对业务行业领域知识和运维场景领域知识的把控来预定义自动触发的脚本来执行常见的、重复性的运维工作。

第三阶段之Aiops智能运维,通过机器学习算法自动的从海量运维数据中不断的学习,结合领域专家的指导不断训练模型,最终通过模型来分析决策,达到智能运维。

Aiops所要实现的目标有五个,即异常检测、故障预测、容量规划、瓶颈分析、助力运营。而要做Aiops,最基本也最重要的便是数据,在IT系统中总共会产生五类数据:机器数据、网络数据、代理数据、探针数据。

机器数据是IT系统自己产生的数据,包含客户端、服务器、网络设备、安全设备、应用程序、传感器产生的日志。

网络数据是网络通信过程中产生的数据(从数据链路层到应用层产生的数据),通过将网络端口的数据拷贝一份获取数据;代理数据则是通过在应用程序中插入代理程序,获取应用程序中函数调用次数时长、调用堆栈等数据;探针数据则是通过拨测模拟用户请求对系统进行检测获得的数据。通过获取到用户产生的浏览器/app数据(如使用系统版本、运营商、PV、UV)、后端调用数据(如调用链、函数执行堆栈)、网络传输数据(如tcp建链时长、网络传送接收包)、基础设施数据(如cpu、内存、磁盘、网络),我们便可以全链路的从前端到中端再到后端追踪用户请求,实现故障的快速定位、影响范围判断。

通过对历史数据的分析,可以快速了解系统瓶颈、热点数据、异常事件关联。有了历史数据和当前数据,我们便可以对未来进行预测,实现故障预测、容量预测、趋势预测等,真正的把人解放出来,让人工智能服务于生产生活。

AIops虽是良药,但却不可盲目追从,需根据企业目前情况进行确定,Aiops落地的难点有三个:数据获取与管理、人工智能算法、专家。

对于数据获取,由于中国互联网发展时间还比较短,而且是粗犷式发展,因此运维监控体系是不够完善的,比如有的企业,没有任何业务监控系统或只有部分系统导致采集的数据不够全面,有的企业监控的指标深度不够导致关键指标不能识别从而不能智能分析。

对于数据管理,在整个aiops中采集了各种类型的、大量的数据,这需要系统能够处理并存储各种样式的数据,还需要提供强大的实时分析搜索能力,需要对数据生命周期进行管理,这块非常具有挑战。

对于人工智能算法,在智能运维领域常见的算法包括逻辑回归、关联关系挖掘、聚类、决策树、随机森林、支持向量机、蒙特卡洛树搜索、隐式马尔科夫、多示例学习、迁移学习、卷积神经网络等,随着技术的发展,运维分析将采用越来越先进的机器学习算法。在处理运维工单和人机界面时,自然语言处理和对话机器人也被广泛应用。

对于专家,我们可以把其细分为行业专家(如电商领域、金融领域、教育领域等)、运维专家(熟悉各种运维场景),而这两方面的人才都是非常匮乏的,只靠人工智能算法去学习分析,没有专家的指导是不足够的。

运维界把Aiops设定为解决运维问题的必然方向,现在头部互联网公司如阿里、腾讯、百度、头条、美团、滴滴等也均在搭建自己的Aiops平台,通过融合各种 IT 数据,真正打破数据烟囱,对监控,自动化、服务进行支持,使得 IT 能够更好的支撑业务,利用大数据技术以及机器学习技术,回答以前很多单从业务口径,或者单从 IT 口径无法回答的问题,加快企业在竞争激烈的市场环境中占据一席之地。

自人工智能打败阿尔法狗的那天开始,它必定会涉及到我们工作和生活的方方面面,与不同领域擦出不同的火花,关于现在智能家居、智慧交通、智慧旅游、智能运维等都在快速建设中,关于未来,我们充满信心和期待~



标签: