阿里根因分析通用框架获智能运维国际竞赛冠军

曾禾
2022-03-25 11:42

3月25日消息,据报道,对拥有复杂架构的云计算平台来说,要找出故障原因极为复杂和耗时。而阿里打造的根因分析通用框架,可利用AI快速定位故障根因,已应用于部分云计算产品,节省时间超过一半,准确率超过80%。而该框架也在近期举办的ICASSP’22 AIOps Challenge网络智能运维国际竞赛中获得冠军。

据介绍,ICASSP(International Conference on Acoustics, Speech and Signal Processing)是信号处理领域规模最大的国际学术会议。其中,ICASSP’22 AIOps Challenge网络智能运维竞赛由香港中文大学(深圳)等机构主办,希望用机器学习等方式来自动找出网络故障的根本原因,此次共有382支队伍参赛。由阿里达摩院决策智能实验室和阿里云计算平台组成的团队获得冠军,并受主办方之邀将其中主要算法以论文的形式发表在ICASSP上。

format-jpg

(图源:天下网商,下同)

所谓根因分析(Root Cause Analysis),是指找到故障的根本原因,这是智能运维AIOps的重要研究方向。以云计算平台为例,其稳定性至关重要,但由于架构复杂,模块众多,一旦出现故障,如果纯靠人工来排查费时费力,已难以满足需求。因此,基于机器学习等智能方式的根因分析应运而生。

不过,根因分析的技术门槛颇高,首先是运维数据往往来源于不同系统,形式多样,需要大海捞针找出关键信息。其次是容易被表象迷惑,大型系统中,故障传播的链路往往很长,根本原因可能隐藏在深层次节点中。此外其还存在标注样本数据少,异常少见等问题。

阿里打造的根因分析通用框架,解决了上述难题。针对多源异构的海量数据,该框架以时序分析技术来提取关键信息;针对标注样本少,框架利用时间序列相似性等多种方法来进行数据增强;针对故障传播链路长,其运用结合了专家经验和因果图的图算法来找出根本原因。

format-jpg

该框架构建了丰富的算法工具箱和兵器库,已应用于阿里云实时计算、通用计算等多个重要产品中,如Blink/Flink、MaxCompute、Dataworks等,帮助运维人员及时发现异常,快速定位问题根因,准确率达80%以上,相较之前能节省时间一半以上。比如实时计算平台的热点机器问题,会导致负载过高、作业缓慢,其原因链条较长,可能出自硬件故障,也可能是作业本身,人工排查较为耗时,而使用该框架能够快速定位根因。

据了解,该框架还能帮助发现较为隐蔽的异常,比如部分机器下线会导致资源不足,迫使一些客户等待排队,这些在常规集群整体作业中难以发现。

format-jpg

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
9月20日消息,据报道,大模型创业公司智谱AI于近日完成B-4轮融资,其中,腾讯战投、阿里巴巴战投等多家机构参与投资,该轮融资完成后,智谱AI的估值达到约10亿美金。对于此事,阿里云方面回复媒体称:“阿里云希望大模型公司交朋友,共建大模型生态,我们确实参投了智谱AI。”
11月20日消息,2024年世界互联网大会乌镇峰会开幕。阿里巴巴CEO吴泳铭在主论坛发言表示,面向AI时代,阿里巴巴专注做好两件事:一是不断完善AI基础设施和相关的支撑体系;二是坚持开源开放,与广大生态伙伴一起,把AI能力转化为千行百业的生产力。目前,阿里“通义千问”API调用百万token花费最低已经降到5毛钱。全球开发者基于“通义千问”二次开发的衍生模型突破7.8万个,美国Meta的Llama处于同一水平,使用者规模全球领先。
据《晚点LatePost》,近期,阿里巴巴淘系技术部的贾荣飞与小红书AI平台部负责人颜深离职,参与大模型相关创业。
12月15日消息,特看科技有限公司 已于近日完成数千万元人民币天使轮融资,本轮由峰瑞资本领投,嘉程资本投。据了解,特看科技成立于2022年6月,创始人兼CEO吴春松是前阿里资深产品专家,曾担任阿里巴巴智能设计实验室负责人,打造了AI设计平台“鲁班”;后负责淘宝内容工具业务,孵化了淘宝商家短视频工具亲拍App。联合创始人兼CTO陈炳辉是前阿里资深技术专家,曾担任UC浏览器内核技术负责人,淘宝内容中台视频生产播放技术负责人。
1月8日消息,据职场社交平台用户爆料, 阿里巴巴人工智能实验室 基本关闭,阿里官网和达摩院都删除了阿里人工智能实验室的相关页面。对此,阿里巴巴回应称,AI labs在上一轮架构变动中已经整体并入云智能,主要的研究方向是计算机视觉机器人。此次官网变动,是由于目前AI labs的组织成员和架构、职能均发生了变化,与此前页面的信息不符,新的部门官网正在制作中,后续会上线独立页面。
4月17日消息,阿里巴巴AI模型DAMO PANDA被FDA (美国食品和药物管理局)认定为“突破性医疗器械”。DAMO PANDA是阿里巴巴达摩院研发的胰腺癌筛查AI模型,可精准识别平扫CT影像中的细微病灶,攻克了胰腺癌早期筛查的国际难题。目前,DAMO PANDA正在国内多地科研试点。
1月2日消息,阿里巴巴日前发布2024年度AI答卷显示,今年淘宝上线的AI产品“生意管家”已累计服务400万商家,帮助中小商家生成超1亿件商品及营销素材。阿里国际站推出的“Al生意助手”全球已有超过6万中小企业使用,发布的商品规模已达700万。阿里巴巴还披露了通义APP的最新进展。目前,全球开发者基于不断迭代的Qwen系列模型二次开发的衍生模型已经超过8万个。
5月24日消息,第七届数字中国建设峰会在福建福州开幕。阿里巴巴展出了AI技术的最新进展,及其在实体经济、基础科研中的应用案例。截至目前,阿里AI大模型已经在汽车、矿业、航空、天文、教育、医疗等行业落地;其中,“通义”大模型通过阿里云服务超过9万家企业,通过钉钉服务超过220万家企业;开源模型累计下载量突破700万,API日调用量过亿。
6月16日消息,图灵奖得主、Meta首席AI科学家杨立昆近日联合Abacus.AI、纽约大学等机构推出全新的大模型测评基准LiveBench AI,并公布首个测评榜单。阿里云通义千问刚刚开源的大模型Qwen2-72B成为排名最高的开源大模型,是前十榜单中唯一的开源大模型、唯一的中国大模型,成绩超过Meta的Llama3-70B模型。6月15日,周鸿祎发视频祝贺阿里巴巴通义千问2登上世界榜单第一名。