开发人员的锅，阿里云大规模故障，引发大量吐槽

2018-06-28 00:11:53玩技站长

玩技站长

管理员, Keymaster

关注

7010
文章

2
粉丝

软件头条评论667字数 987阅读3分17秒阅读模式

阿里云因 bug 禁用内部 IP 导致链路不通，造成大规模故障

27日，阿里云午夜在官网、微博发布了故障公告：

6月27日下午，我们在运维上的一个操作失误，导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题，引发了大量吐槽。故障于北京时间2018年6月27日16:21左右开始，16:50分开始陆续恢复。

经过紧急技术复盘，故障原因如下：
当天下午，工程师团队在上线一个自动化运维新功能中，执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题，上线到自动化运维系统后，触发了一个未知代码bug。错误代码禁用了部分内部IP，导致部分产品访问链路不通。后续人工介入后，工程师团队快速定位问题进行了恢复。

受影响范围包括阿里云官网控制台，以及MQ、NAS、OSS等产品功能。

对于这次故障，没有借口，我们不能也不该出现这样的失误！我们将认真复盘改进自动化运维技术和发布验证流程，敬畏每一行代码，敬畏每一份托付。

下午 16:30 左右，微信朋友圈、微信群、微博出现阿里云故障消息，故障原因主要体现在阿里云官网、控制台无法访问，尝试登陆阿里云官网，显示如下：

官网有时候可以访问，有时候显示502错误的网关，即使官网可以访时，点击登陆，页面只会刷新，登陆不了。

一位行业从业者发推称：阿里云的函数计算挂了，导致线上故障。打算马上降级到本地计算，结果阿里云的 Kubernetes 也挂了。想着挨个机器手工改一下，发现 OSS 也挂了…整个过程没有报警，因为 SLS 也挂了…（备注：未得到阿里云官方确认）

官网公告称16:21左右开始，阿里云官网的部分管控功能，及MQ、NAS、OSS等产品的部分功能出现故障，以下为全文：

阿里云官网通告：6月27日阿里云部分产品及账号登录访问异常通告
【阿里云】【网络】【异常通告】
异常时间：北京时间2018年6月27日16:21左右。
异常概述：于北京时间2018年6月27日16:21左右开始，阿里云官网的部分管控功能，及MQ、NAS、OSS等产品的部分功能出现访问异常，阿里云工程师正在紧急处理中，请您稍后重试。

【异常更新】
北京时间2018年6月27日 16:50
目前受影响的业务正在逐步恢复中，若遇到异常，请您稍等后重试。

【异常更新】
北京时间2018年6月27日 17:30
目前受影响的业务大部分已经恢复正常，请您确认。若还有异常，请您跟我们反馈，谢谢。