前天語雀發(fā)生重大故障導(dǎo)致長達(dá) 7 個小時無法正常訪問,語雀月日原因有個員藍(lán)對于一款擁有千萬級用戶的公布故障產(chǎn)品,發(fā)生如此長的人用珠海斗門(小姐上門)找小姐聯(lián)系方式vx《1662+044+1662》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)故障時間,著實讓人有些震驚。戶贈
昨天晚上語雀在其公眾號解釋了故障原因,送半沒想到竟然是點網(wǎng)新的運維工具 bug 導(dǎo)致華東地區(qū)的生產(chǎn)服務(wù)器被誤下線;又因為存儲系統(tǒng)使用的機(jī)器類別較老無法直接操作上線,沒辦法語雀只能從備份系統(tǒng)里恢復(fù)存儲數(shù)據(jù),語雀月日原因有個員藍(lán)這需要大量時間,公布故障恢復(fù)備份數(shù)據(jù)后又需要進(jìn)行校驗,人用珠海斗門(小姐上門)找小姐聯(lián)系方式vx《1662+044+1662》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)直到晚上 9 點鐘才恢復(fù)正常。戶贈
這次故障也讓大家知道了語雀使用的送半容災(zāi)架構(gòu)是同 Region 多副本容災(zāi)而不是異地容災(zāi)方案,語雀稱后續(xù)將升級為兩地三中心的點網(wǎng)高可用能力,設(shè)計足夠的語雀月日原因有個員藍(lán)數(shù)據(jù)和系統(tǒng)冗余實現(xiàn)快速恢復(fù)并進(jìn)行定期的容災(zāi)應(yīng)急演練。

補償問題:
對于語雀個人版用戶全部贈送半年會員,公布故障操作流程:進(jìn)入工作臺賬戶設(shè)置、人用點擊會員信息、在會員信息里點擊立即領(lǐng)取即可獲得贈送服務(wù)。
針對語雀空間用戶由于情況比較復(fù)雜,語雀會單獨制定賠償方案,請空間管理員留意語雀站內(nèi)信。
當(dāng)然語雀的這次問題也再次為個人和企業(yè)用戶敲響警鐘,那就是要保證數(shù)據(jù)離線可用,不知道這次過后有多少用戶會離開語雀。
下面是語雀公布的故障說明:
10 月 23 日下午,服務(wù)語雀的數(shù)據(jù)存儲運維團(tuán)隊在進(jìn)行升級操作時,由于新的運維升級工具 bug,導(dǎo)致華東地區(qū)生產(chǎn)環(huán)境存儲服務(wù)器被誤下線。受其影響,語雀數(shù)據(jù)服務(wù)發(fā)生嚴(yán)重故障,造成大面積的服務(wù)中斷。為了盡快恢復(fù)服務(wù),我們和數(shù)據(jù)存儲運維團(tuán)隊全力進(jìn)行數(shù)據(jù)恢復(fù)工作,但受限于恢復(fù)方案、數(shù)據(jù)量級等因素,整體用時較長。具體過程如下:
14:07 數(shù)據(jù)存儲運維團(tuán)隊收到監(jiān)控系統(tǒng)報警,定位到原因是存儲在升級中因新的運維工具 bug 導(dǎo)致節(jié)點機(jī)器下線;14:15 聯(lián)系硬件團(tuán)隊嘗試將下線機(jī)器重新上線;15:00 確認(rèn)因存儲系統(tǒng)使用的機(jī)器類別較老,無法直接操作上線,立即調(diào)整恢復(fù)方案為從備份系統(tǒng)中恢復(fù)存儲數(shù)據(jù)。15:10 開始新建存儲系統(tǒng),從備份中開始恢復(fù)數(shù)據(jù),由于語雀數(shù)據(jù)量龐大,此過程歷時較長,19 點完成數(shù)據(jù)恢復(fù);同時為保障數(shù)據(jù)完整性,在完成恢復(fù)后,用時 2 個小時進(jìn)行數(shù)據(jù)校驗;21 點存儲系統(tǒng)通過完整性校驗,開始和語雀團(tuán)隊聯(lián)調(diào),最終在 22 點恢復(fù)語雀全部服務(wù)。用戶所有數(shù)據(jù)均未丟失。
改進(jìn)措施:
通過這次故障我們深刻認(rèn)識到,語雀作為一款服務(wù)千萬級客戶的文檔產(chǎn)品,應(yīng)該做到更完善的技術(shù)風(fēng)險保障和高可用架構(gòu)設(shè)計,尤其是面向技術(shù)變更操作的 “可監(jiān)控,可灰度,可回滾” 的系統(tǒng)化建設(shè)和流程審計,從同 Region 多副本容災(zāi)升級為兩地三中心的高可用能力,設(shè)計足夠的數(shù)據(jù)和系統(tǒng)冗余實現(xiàn)快速恢復(fù),并進(jìn)行定期的容災(zāi)應(yīng)急演練。只有這樣,才能提升嚴(yán)重基礎(chǔ)設(shè)施故障時的恢復(fù)速度,并從根本上避免這類故障再次出現(xiàn)。為此我們制定了如下改進(jìn)措施:
1、升級硬件版本和機(jī)型,實現(xiàn)離線后的快速上線。該措施在本次故障修復(fù)中已完成;
2、運維團(tuán)隊加強(qiáng)運維工具的質(zhì)量保障與測試,杜絕此類運維 bug 再次發(fā)生;
3、縮小運維動作灰度范圍,增加灰度時間,提前發(fā)現(xiàn) bug;
4、從架構(gòu)和高可用層面改進(jìn)服務(wù),為語雀增加存儲系統(tǒng)的異地災(zāi)備。


相關(guān)文章




精彩導(dǎo)讀
熱門資訊
關(guān)注我們