宕機原因分析
2011/12/08
原因一:電源故障
停電自然會引起服務器宕機,還沒有哪個服務器不用電的吧。在剛剛過去的2010年,閃電、風暴、洪水、轉換開關的失誤都是今年數(shù)據(jù)中心停電的罪魁禍首,大量的社交媒體網(wǎng)站,如Twitter、Facebook以及一些免費托管的服務器群都有嚴重的斷電現(xiàn)象。在2010年,主要電子商務商服務的服務器就出現(xiàn)了四次嚴重斷電,導致數(shù)百萬美元的交易流產(chǎn),甚至連政府服務網(wǎng)站也出現(xiàn)宕機事件。
iWeb的CL數(shù)據(jù)中心因火災迫使3000臺虛擬服務器主機轉用發(fā)電機設備進行供電,其中三臺發(fā)電機正常啟動,另外一臺因轉換開關故障而啟動失敗。一旦UPS電源被耗盡,該數(shù)據(jù)中心將有三分之一的設備宕機。大約一小時后電力恢復,但至少有450臺的服務器沒有重新啟動,需要進行人工操作,一直持續(xù)到4日的下午4點所有的服務器才開始正常運行。通過這一事件,iWeb在博客中表示,該公司每星期都會對備用電力設備進行測試,防止同類情況發(fā)生。
在此前的9月16日,網(wǎng)上銀行門戶網(wǎng)站Chase.com在遭遇了14號和15號漫長的停電而停機后重新上線,但是冗長的等待過程導致了定期支付賬單無法按時交易。該網(wǎng)上銀行門戶網(wǎng)站表示:將退客戶還在此期間產(chǎn)生的的滯納金,并對此事件進行公開道歉。
在5月初,Amazon云計算服務4次因停電而發(fā)生故障,5月4日的兩次故障的原因則分別是一個UPS單元故障和人為操作失誤;5月8日因配電屏電氣接地和短路引發(fā)的停電曾導致部分用戶失去服務長達7個小時,而且還導致極少量用戶的數(shù)據(jù)丟失。而在5月11日,停電故障則是因為一輛汽車撞倒了Amazon數(shù)據(jù)中心附近的高壓電線桿,而數(shù)據(jù)中心的配電開關又未能正常地從公用電網(wǎng)切換到內部的備用發(fā)電機(配電自動化系統(tǒng)錯誤地將停電原因理解為電氣接地)。
原因二:硬件故障
在去年的12月12日,亞馬遜旗下英國、法國、德國和西班牙網(wǎng)站晚間宕機超過一個半小時,有報道稱,由于亞馬遜停止向維基解密網(wǎng)站提供服務,亞馬遜歐洲購物網(wǎng)站引發(fā)黑客攻擊而出現(xiàn)訪問障礙。但是在第二天,亞馬遜女發(fā)言人馬麗•奧薩科(MaryOsako)在一份電子郵件中談及所謂的遭受拒絕服務攻擊時表示:“今天早些時候公司歐洲零售網(wǎng)站出現(xiàn)短暫的訪問中斷,是由于我們歐洲數(shù)據(jù)中心網(wǎng)絡硬件出現(xiàn)故障,并非遭受分布式拒絕服務攻擊(DDOS)!
無獨有偶,美國最大的在線支付平臺PayPal在2010年10月29日也因硬件故障發(fā)生宕機事故。宕機發(fā)生于美國東部時間上周五上午11時,當天下午12時30分故障解決。但是,下午2時30分,故障再度發(fā)生,并持續(xù)了近一個小時;謴秃褪湓到y(tǒng)未能立即發(fā)揮作用。故障期間,PayPal的所有用戶均無法使用該網(wǎng)站的服務。
原因三:軟件故障
2010年2月18日下午(美國當?shù)貢r間),美國博客服務平臺WordPress網(wǎng)站發(fā)生服務故障,此次故障持續(xù)時間達110分鐘,使約1020萬家使用WordPress服務的博客網(wǎng)站受到影響,受到影響的網(wǎng)頁瀏覽數(shù)量高達550萬個。WordPress創(chuàng)始人馬特•穆倫維格(MattMullenweg)在該公司官方博客中表示,故障原因是由于WordPress數(shù)據(jù)中心服務商對一臺主要路由器參數(shù)進行了調整。
穆倫維格當時還表示,希望下次WordPress發(fā)生大規(guī)模服務故障的時間至少也在“四年之后”。但出乎穆倫維格意料的是,僅僅不到四個月之后,WordPress再次發(fā)生大規(guī)模服務故障。在6月10日晚(美國當?shù)貢r間)發(fā)生的那次故障,導致超過1000萬家使用WordPress服務的博客受到影響,其中包括知名科技博客TechCrunch、GigaOm等網(wǎng)站一度無法正常訪問。穆倫維格表示導致此次故障的原因是:WordPress對一部分所托管博客網(wǎng)站的代碼進行了調整。
早在2000年,亞馬遜公司也曾發(fā)生過軟件故障引起的宕機事故,那年的感恩節(jié)前后的兩周,亞馬遜網(wǎng)站在不到兩周時間里出現(xiàn)第三次癱瘓,對此,亞馬遜表示出現(xiàn)故障的原因是網(wǎng)站的內部軟件有問題。亞馬遜發(fā)言人表示:“我們在同一時間運行了兩個軟件,結果證明這兩個軟件無法兼容,于是導致網(wǎng)站出現(xiàn)癱瘓,現(xiàn)在我們已對這一問題進行了確認和分析,而且已排除了故障!
原因四:“鴨梨”過大 消化不了
相比其它原因,網(wǎng)站服務器宕機事故是較為常見的原因是流量負載過大。就好比春運一樣,短時間內大量人員的流動導致了鐵路部門的緊張,而突發(fā)性高并發(fā)量訪問則使得系統(tǒng)服務器癱瘓宕機。
流量過大,往往在網(wǎng)游中會出現(xiàn),魔獸世界在中國的代理商由九城變更為網(wǎng)易,與九城服務器經(jīng)常宕機不無關系,但是換作網(wǎng)易后服務器也是經(jīng)常宕機。
天極網(wǎng)
灵丘县|
大荔县|
东莞市|
新余市|
手游|
建昌县|
远安县|
八宿县|
循化|
大邑县|
马山县|
施秉县|
武胜县|
新兴县|
阳东县|
卢湾区|
南陵县|
尚义县|
息烽县|
万安县|
宣武区|
横峰县|
出国|
尖扎县|
山东省|
武威市|
微山县|
突泉县|
江门市|
武川县|
华阴市|
乳源|
德格县|
蛟河市|
诸城市|
贵德县|
禄劝|
什邡市|
浪卡子县|
剑河县|
赞皇县|