七天兩次中斷 VMware初嘗云計(jì)算的苦果
VMware全新云計(jì)算服務(wù)——Cloud Foundry,該服務(wù)目前還處于測(cè)試階段,在影響頗大的亞馬遜云服務(wù)中斷事件不久的上星期,VMware Cloud Foundry云服務(wù)上星期遭受了兩天的停機(jī)事故。
4月25日,VMware Cloud Foundry云服務(wù)因存儲(chǔ)柜的電供應(yīng)導(dǎo)致停機(jī),雖然應(yīng)用仍然在線,但是開發(fā)者已經(jīng)不能進(jìn)行最基本的操作,例如登錄和創(chuàng)建新應(yīng)用的操作。該中斷事故持續(xù)了將近10個(gè)小時(shí)后,服務(wù)恢復(fù)。
但是,就在Cloud Foundry云服務(wù)中斷恢復(fù)的第二天,VMware一官員進(jìn)行檢測(cè)以防止第一天的事故再發(fā)生,卻意外導(dǎo)致了第二次的云服務(wù)的中斷。
VMware官員 Dekel Tankel解釋道,“4月25日的中斷是偶爾會(huì)發(fā)生的”,并表示VMwareVMware已經(jīng)確保其軟件,監(jiān)控系統(tǒng)和運(yùn)作模式的性能,使其足以防止客戶系統(tǒng)的停電脫機(jī)。
有了這樣的思路,VMware在第二天就開始開發(fā)“一個(gè)完整的業(yè)務(wù)腳本來進(jìn)行早期的檢測(cè)、預(yù)防和恢復(fù)”。
“4月26號(hào)上午8點(diǎn),這個(gè)腳本拉開帷幕,中午整個(gè)工程團(tuán)隊(duì)進(jìn)行審查,但都還只是紙上談兵還未落實(shí)到實(shí)處,待到腳本的審查才可進(jìn)行實(shí)踐。不幸的是,上午10:15分,一位運(yùn)營(yíng)工程師開始了實(shí)戰(zhàn),直接導(dǎo)致了Cloud Foundry云服務(wù)的整個(gè)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的中斷,這個(gè)舉動(dòng)摧毀了所有負(fù)載平衡器、路由器和防火墻,導(dǎo)致VMware內(nèi)部部分DNS基礎(chǔ)設(shè)施停止工作,最終導(dǎo)致Cloud Foundry與外部鏈接的中斷。”
可以看出第二次中斷的影響比第一天的中斷更為嚴(yán)重。
“這是我們第一次整體中斷,這個(gè)事件需要我們?yōu)榇私ㄔ煲粋€(gè)維護(hù)頁面,”Tankel表示,“這次的中斷,所有應(yīng)用和系統(tǒng)部件繼續(xù)運(yùn)行,然而網(wǎng)絡(luò)前臺(tái)中斷,我們是唯一知道系統(tǒng)啟動(dòng)的。直到上午11:30,網(wǎng)絡(luò)前臺(tái)才全面運(yùn)行?!?/span>
VMware第二天的云服務(wù)中斷是由于人為操作導(dǎo)致了云服務(wù)的中斷,與亞馬遜云服務(wù)中斷的根源分析很類似。在亞馬遜的案例中,是由于系統(tǒng)升級(jí)過程中的錯(cuò)誤導(dǎo)致了好幾天的云服務(wù)中斷。
VMware主要是以其服務(wù)器虛擬化技術(shù)著稱,在提供共有的云計(jì)算服務(wù)領(lǐng)域可謂是一個(gè)新手。在此之前,VMware也曾向用戶粗手技術(shù)和服務(wù)來幫助他們建立自己的云計(jì)算。
有云Cloud Foundry 對(duì)于用戶來說比較新,所以其影響遠(yuǎn)不及亞馬遜產(chǎn)生的影響,因?yàn)閬嗰R遜云服務(wù)的中斷,導(dǎo)致眾多依賴亞馬遜服務(wù)的知名網(wǎng)站中斷服務(wù)。但是這次的中斷事件也讓VMware嘗到了服務(wù)提供商的艱辛,畢竟這么誘人的果實(shí)不是什么人都可以吃得到的。