2月25日,微盟發布公告稱,SaaS業務數據遭到一名員工“人為破壞”,故障發生后排查發現大面積服務集群無法響應,生產環境及數據遭受嚴重破壞。截止目前,據微盟官方網站,微盟微商城、智慧零售、微站業務正式恢復服務,但是對于微盟的老用戶,數據還在修復過程中。
事情緣起微盟的員工于2月23日晚16點56分通過個人VPN登入公司內網跳板機,破壞微盟線上生產環境。2月23日19點,微盟收到系統監控報警,服務出現故障,隨后微盟立刻召集相關技術人員進行定位,發現大面積服務集群無法響應,生產環境及數據遭到嚴重破壞,微盟立刻啟動緊急響應機制,并與騰訊云技術團隊一起研究制定生產環境和數據修復方案。
據中國經濟網,有業內人士認為,微盟的運維可以無聲無息通過安全機制破壞數據,暴露微盟在運維權限管理上存在缺失,此外,微盟對事故的監測和恢復能力不足,沒有第一時間發現問題所在,而是花了36小時才找到故障原因,超48小時才恢復小部分用戶的數據。
按照運維工作相對成熟的效率,遇到比較大的故障,一個小時之內應該能定位出故障位置,一些小的故障可能在15分鐘、30分鐘以內能定位到。而微盟在36小時后才公布事情始末,顯然反應速度有點遲。
IT外包運維管理是IT界最熱門的話題之一,有IT服務外包公司認為,信息系統運維對于系統的安全穩定運行至觀重要,一旦出現問題,必須保持運維的高質量和高效率。微盟的IT運維如果能在出現問題前完善管理,可以減少對于商戶的損失。
文/上海藍盟蘭寧,IT外包專家。