腾讯云4月8日故障复盘:持续近87分钟,1957个客户报障

刘峰
2024-04-14 14:38

4月14日消息,腾讯云4月8日故障复盘及情况说明:4月8日15点23分,腾讯云团队收到告警信息,云API服务处于异常状态;随即在腾讯云工单、售后服务群以及微博等渠道开始大量出现腾讯云控制台登录不上的客户反馈;经过故障定位发现,客户登录不上控制台正是由云API异常所导致;本次故障的原因是云API服务新版本向前兼容性考虑不够,以及配置数据灰度机制不足的问题。

format-jpg

图源:腾讯云官微

云API是云上统一的开放接口集合,客户可以通过API以编程方式管理和操控云端资源,云控制台通过组合云API提供交互式的网页功能。故障发生后,依赖云API提供产品能力的部分公有云服务,也因为云API的异常出现了无法使用的情况,比如云函数、文字识别、微服务平台、音频内容安全、验证码等。此次故障一共持续了近87分钟,期间共有1957个客户报障。

从客户的视角来看,云服务大概可以分为数据面和控制面,数据面承载客户自身的业务,控制面负责操作云上不同产品。比如目前使用最广泛的IaaS服务,基本上都是以直接面向数据面为主,控制面仅在客户购买或需要对资源层面进行调整操作时会涉及。

此次发生故障的控制台和云API是对控制面的影响,而客户已经配置好的服务器等IaaS资源,包括已经部署运行的业务,没有受到云API异常的影响。其他以非云 API 方式提供服务的PaaS和SaaS服务,处于正常服务的状态。

format-jpg

图源:腾讯云官微

本次API升级过程中,由于新版本的接口协议发生了变化,在后台发布新版本之后对于旧版本前端传来的数据处理逻辑异常,导致生成了一条错误的配置数据,由于灰度机制不足导致异常数据快速扩散到了全网地域,造成整体API使用异常。

发生故障后,按照标准回滚方案将服务后台和配置数据同时回滚到旧版本,并重启API后台服务,但此时因为承载API服务的容器平台也依赖API服务才能提供调度能力,即发生了循环依赖,导致服务无法自动拉起。通过运维手工启动方式才使API服务重启,完成整个故障恢复。

故障期间,腾讯云售后团队协助部分客户做了业务容灾预案的实施,将受影响服务做调度以快速恢复客户的业务服务。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
12月20日消息,天眼查App显示,12月20日,腾讯科技 有限公司申请的“红包发放方法及其装置、存储介质、程序产品”专利公布。摘要显示,该方法包括,响应于第一操作,显示接力红包设置选项,在选项中显示用于生成接力红包的设置信息,发放接力红包。本发明实施例能够提高对虚拟红包的发放效率,从而改善用户的使用体验,可应用于例如技术中的资源设置及资源处理等各种应用场景。
9月8日消息,鼎科技近日与腾讯签署战略合作协议。根据协议,双方将围绕工业互联网、移动协同办公、计算等方面,深化战略合作,促进双方业务发展和服务延伸,实现跨越式发展。同时,还将围绕人才培养、业务拓展等方面开展相关合作,结合各自优势,融合互联网技术和工业场景需求,共同为能源行业、为社会创造价值。
腾讯、华商数字文旅产业研究院主办的2024数字文旅发展大会近日在西安召开。
报告显示,腾讯音视频的解决方案份额连续六次蝉联榜首,并在视频生产创作与媒资管理市场份额中排名第一。报告还显示,2023上半年中国视频市场规模达到46.2亿美元,受疫后终端用户娱乐需求增长放缓、行业客户缩减IT支出等多重因素影响,同比下滑7.0%,这也为音视频服务商带来了更大的挑战。
腾讯日前召开行业大模型及智能应用技术峰会,微盟受邀参与见证腾讯行业大模型研发进展。
目前,腾讯智能已经可以提供标准的虚拟人定制流程。
今日,腾讯与卫龙集团达成战略合作。
刘峰
关注人物,保持真实