底层服务组件故障,专家:牵一发而动全身
作者/ IT时报见习记者 孙永会
编辑/ 孙妍
阿里云上热搜了,但却是“崩”上热搜。
“淘宝崩了”“钉钉崩了”“闲鱼崩了”……11月12日晚间,阿里云因多款应用发生故障登上热搜榜,话题引发众多网友讨论,知乎、小红书、脉脉等平台关于“阿里云崩了”的话题也层出不穷。此前,阿里云也出过多次故障,但此次影响范围之广,实属罕见。
阿里云实时“官宣”处理进度:11月12日18:14,阿里云发布公告称,自17:44起,阿里云云产品控制台访问及API调用出现异常,工程师正在紧急介入排查;17:50,阿里云确认故障原因:与某个底层服务组件有关;18:54,公告显示杭州、北京等地域的控制台及API服务已恢复;19:20,公告称工程师通过分批重启组件服务,绝大多数地域控制台及API服务已恢复;21:11,公告显示受影响云产品均已恢复。
这并非阿里云的第一次事故,2018年6月,阿里云被曝出持续近半小时的重大技术故障;2019年3月,疑似出现宕机事故,给部分互联网公司造成影响;2022年12月,香港Region可用区C发生大规模服务中断事件,对较多客户的业务带来重大影响,影响面扩大到香港可用区C的EBS、OSS、RDS等云服务……6年内发生多次不同程度的故障,不禁让人心生疑虑:阿里云还值得信赖吗?
底层服务组件故障
“牵一发而动全身”
从事发当日的首个回应公告至当晚发布的“云产品均已恢复”结果,整起事故耗时3个小时,地域范围波及甚广,国内如华南1(深圳)、西南1(成都)、华南3(广州)、华东1(杭州)、华北5(呼和浩特)等,海外如印度(孟买)、英国(伦敦)、美国(硅谷)、韩国(首尔)等。
昕荣(化名)所在的公司用了阿里云的服务,她告诉《IT时报》记者,公司相关业务的运转受到了较大影响,研发的同事“被迫”在周日加班数个小时。“我看这次主要是阿里云的AK鉴权发生异常,从而影响到了OSS和MQ这两个组件。其他公司很多服务都是用阿里云的这两个组件,所以当它们受损时,便会受到牵连。”昕荣说道。
底层服务组件在中台发挥关键的作用。业内专家王淇(化名)告诉《IT时报》记者,阿里云自身使用的是一个大中台的技术架构,中台具有高度复杂性和集约性,当底层出现错误,要完成灾备切换恢复具有较高的难度。“相当于‘大脑’瘫痪了。”王淇表示,尽管当前这个故障已恢复完毕,但倘若处理不周或不防患于未然,随时会再次面临“瘫痪”。
而中台出现故障不仅会发生在阿里云身上,在王淇看来,任何一家具有云计算服务企业都会存在故障风险。
裁员、管理或成“导火索”?
《IT时报》此前报道,今年5月,关于阿里裁员的消息在微博、脉脉等各大社交媒体上引发热议,裁员风波涉及淘天集团、菜鸟、本地生活、云智能集团、大文娱等板块。其中,作为阿里六大业务之一的阿里云智能,被曝裁员比例约 7%,彼时,阿里云方面回应表示,这是公司进行的正常组织岗位和人员优化。
阿里云智能人士对媒体表示:“每年公司会进行正常的组织岗位和人员优化。此次人员调整的时间为5月份,是在4月底发放完年终奖后启动的,整体优化比例约 7%,补偿标准为 N+1+1,未休的年假、陪伴假等均可折现。”
据阿里巴巴第二季度的业绩报告,截至今年6月底,阿里巴巴的员工人数较之于3月份的235216人少了6541人,仅2023年上半年,阿里巴巴便裁员11065人。阿里巴巴集团官微此前回应,2023年六大业务集团总计需新招15000人,其中校招超过3000人。
外界普遍认为,裁员,特别是高级技术人员的缺失,或是阿里云这次大规模故障引发的主要原因。王淇也表示,维护一个复杂的中台需要大量专业的开发和运营人员,而阿里云今年的裁员对此或多或少产生了影响,另外,管理亦是因素之一。
独立分析师付亮也表示,今年阿里巴巴管理模式的大调整可能带来新的管理隐患。“从管理层面,阿里全面推进各业务集团及下属公司独立,各实体之间‘公司化协议运作’,各业务集团及具备条件的公司独立盈亏,结果必然是各业务集团和公司加强了盈利项目,压缩了非盈利项目,跨业务集团的支撑很难避免不受到盈利目标的影响。”
“阿里云内部精力从‘云’向仍处于投入期的AI大模型转移。”付亮说道。
就在本月初举行的云栖大会上,阿里云发布机器人大模型解决方案,宣称集成了通义千问、通义万相等基础模型及阿里云物联网平台,赋予机器人知识库问答、工艺流程代码生成、机械臂轨迹规划、3D目标检测和动态环境理解等全方位能力,可大幅降低机器人开发的门槛。付亮认为,阿里云高管的调整、业务团队的变动,以及精力的转移增加了不确定性,业务稳定性亦在降低。“利润考核逐步下压,降低成本,以增加利润,但减少了资源配置,这是阿里云业务支撑出现隐患的重要原因。”
排版/ 季嘉颖
图片/ 微博 东方IC
来源/《IT时报》公众号vittimes