
云架構對運維系統的新需求和新挑戰(zhàn)
引入云計算和業(yè)務需求帶來運維壓力
隨著越來越多的企業(yè)擁抱云計算,為了支持業(yè)務系統的快速上線、靈活伸縮以及更高的SLA要求,再加上有限的IT運維成本,運維人員將面臨比以往更大的運維壓力。在運維擁有海量設備且高度復雜的云數據中心環(huán)境時,如何提供99.95%或以上的高質量IT服務,提升效率并降低成本,是運維團隊當前面臨的最大挑戰(zhàn)。
保障高運維質量:云數據中心的設備規(guī)模從幾十/幾百向幾萬/幾百萬數量級演進時,海量硬件設備的使用對硬件故障的快速定位和隔離將帶來巨大挑戰(zhàn);同時,采用虛擬化和分布式彈性技術也加劇了云數據中心的復雜度。這些都會導致運維難度增加,小概率故障成為常態(tài)且影響加大,用戶級的99.95%或以上的服務質量承諾(SLA)很難保障。
提高運維效率:虛擬化技術和眾多開源技術的引入使得運維變得越來越復雜,傳統人工運維模式處理速度慢、出錯概率高。此外,傳統人均50~100臺設備的維護效率,在大規(guī)模云化環(huán)境下,需要投入大量人力。
保持低運營成本:傳統IT的資源使用率通常小于20%,在云化后資源使用率有所提升,但是個性化、按需彈性需求導致資源碎片化、負載不平衡以及擴容規(guī)劃不精準,可能會造成整體資源利用率并沒有達到規(guī)劃目標,運維成本居高不下。
云架構用戶體驗保障和業(yè)務高可用帶來運維的“不可知性”
為了提升資源的利用率,云架構下資源是共享的,而非獨占,這與傳統IT完全不同。云計算通過自動的彈性伸縮策略來實現資源共享與用戶體驗及業(yè)務可用性之間的平衡,這是云計算的核心優(yōu)勢之一。但這也帶來了運維的新需求和新挑戰(zhàn),即運維人員往往并不知道業(yè)務系統具體運行在哪個硬件上,故障定位變得非常困難,解決這種不可知性要求運維系統要做到“更加全面的系統監(jiān)控”,從而實現“可知性”。
傳統IT系統和云架構IT系統的混合IT架構的統一運維管理
企業(yè)IT向云架構遷移不是一蹴而就的,而是一個長期共存的過程。兩種架構導致運維工具差異大,對運維人員也帶來了更大的挑戰(zhàn)。如何實現兩種IT架構統一、集中的維護管理,是運維系統面臨的新課題。
全自動化要求運維人員的角色從“運維管理”轉變成“運維研發(fā)”
分布式架構的云計算系統,其資源調度、業(yè)務伸縮、故障隔離和故障修復等都是自動化的,不可能基于人工來完成,這已經完全顛覆了傳統IT的軟件安裝部署、業(yè)務使用和管理維護模式。因此,運維的工作不再是傳統的運維管理,而是構建自動化運維模型和運維工具,這不但對運維人員、更對運維系統提出了新的要求。
智能化運維支持IT系統的自動化運行
實現IT系統全自動化運行的核心在于智能。系統具備完善的智能,才能夠基于系統的狀態(tài)、用戶規(guī)模、業(yè)務體驗質量和策略規(guī)則等,實現系統的彈性伸縮、故障隔離和故障修復等等,這一切都要靠一個智能的管理系統或者運維系統來完成。系統的智能運維包括3個方面的核心能力:全生命周期自動化管理;智能化故障預防、發(fā)現與自愈;以及智能化容量運營。
全生命周期自動化管理
云數據中心的資源規(guī)模和業(yè)務規(guī)模都遠遠超過傳統數據中心。傳統的手工方式實現云資源/云服務的上線、監(jiān)控、升級、變更、擴容、限流、降級與下線的生命周期管理時,效率低下、人員誤操作風險高,自動化手段勢在必行。通過變人工處理為自動化處理,提升運維的人均維護效率,滿足業(yè)務的敏捷要求,逐步向無人值守的自動化運維演進。
以工作流為中心的自動化作業(yè)平臺,復雜操作簡單化:自動化作業(yè)平臺提供了把日常運維經驗標準化和工具化的框架,有利于運維經驗的固化與共享。通過預先配置好使用頻度較高的變更操作場景,比如已知典型故障的修復操作、資源池的擴/減容、補丁安裝、健康檢查、合規(guī)審計與不合規(guī)項整改、軟件批量安裝、管理節(jié)點的配置備份、配置信息提取,以及設備批量上下電等,可以實現開箱即用,將原本很復雜的操作簡單化,從而大幅提升運維的效率,降低變更時人工誤操作的概率。通過設置分權分域與提供操作日志,可以滿足安全與審計的需求,實現可控、高效的運維變更操作。

作業(yè)平臺業(yè)務流程
此外,利用平臺提供的通用框架能力,運維人員還可以按需定制自動化作業(yè)。運維人員完成原子腳本開發(fā)后進行腳本可視化編排后提交,平臺可以自動調度和分發(fā)執(zhí)行,完成各種場景復雜作業(yè)的在線管理和自動執(zhí)行。
- 標準化與一致性運維是基礎:由于傳統數據中心里的軟硬件“七國八制”,導致運維系統需要進行大量的兼容性配置,使整體建設的復雜度與難度倍增,難以落地。在云時代,通過使用標準化計算、存儲和網絡硬件,以及標準化軟件的安裝包、配置、權限、灰度發(fā)布策略、腳本和健康狀態(tài)等,運維人員可以通過可視化、可預期的方式管理整個云環(huán)境,而且能夠按照預設狀態(tài)自行修正,解決傳統數據中心內因為環(huán)境狀態(tài)不一致所導致的頻繁變更和人為失誤等風險。
- 硬件即插即用,定期下線:隨著數據中心規(guī)模的增長,手工為主的硬件識別與安裝方案將無法支撐資源的快速上線、擴容與下線。通過即插即用技術,只需要使用低技能人員將設備上架、上網和上電,運維系統就會根據該硬件的預期狀態(tài)自動化完成端到端硬件系統的部署和上線;與此同時,通過云化隔離技術,硬件出現故障時也不再需要立即解決,只需讓低技能人員定期替換即可。
- 軟件一鍵發(fā)布,7×24永遠在線:隨著敏捷、分布式軟件開發(fā)部署模式的興起,相對于傳統數據中心,云數據中心內的系統升級變得更加頻繁和復雜。通過一鍵式發(fā)布工具,實現從申請資源→發(fā)布部署→系統自檢→自動化業(yè)務測試→回退/灰度上線的端到端自動化部署,同時支持全球多數據中心百/千級實例的集中發(fā)布。
- 移動運維:手機端的運維App軟件在手,專家可以隨時隨地移動運維,完成云資源的全生命周期管理。
智能化的故障預防、發(fā)現與自愈
傳統模式下,運維人員的工作模式是被動等待問題發(fā)生,然后再進行故障處理。根據有關數據統計,運維人員平均每天計劃內的工作只占50%左右,剩下的時間都是在到處救火。隨著云數據中心規(guī)?焖僭鲩L,運維人員需要處理的事件量越來越大,人工救火將力不從心。這就需要一個智能的運維平臺,利用大數據關聯分析與機器學習技術為運維系統賦予人工智能,提供從故障預防到故障定位、再到故障閉環(huán)的智能保障能力。
主動故障預防:故障處理再迅速也不如不產生故障,尤其是在大規(guī)模云數據中心場景下,即便很低的故障率也會產生一定規(guī)模的故障,為了避免到處救火,最好的方法是做好防火工作。
關鍵措施1:減少人工操作引入故障
根據華為公司IT部門的統計,變更操作是故障的導火索,超過50%的故障是由變更中的人工操作引發(fā)的。大多數的一級事故都由變更引起,主要原因是變更操作復雜,人工處理容易產生誤操作。因此,通過變更自動化避免人工處理引發(fā)故障,是降低故障發(fā)生率的一個非常重要的舉措。
關鍵措施2:系統亞健康智能分析,提前發(fā)現故障隱患
利用大數據技術,結合故障特征庫進行跨數據領域關聯分析,提前發(fā)現隱患、預測故障。與自動化策略執(zhí)行系統集成聯動,在用戶發(fā)覺問題前將問題解決,避免對業(yè)務造成影響。
及時故障發(fā)現:云數據中心由于技術堆棧層次多、技術架構復雜,如何識別故障是個很大的難點。構建一個從資源到租戶體驗端到端的監(jiān)控體系,全面掌握系統運行狀態(tài)數據,有助于準確識別出業(yè)務系統響應慢、查詢速度慢、產品質量差(問題多、交易失敗率高)和用戶數量少/資源利用率低等問題的根源,推動技術團隊不斷改進,達到持續(xù)優(yōu)化的運維管理目的。
關鍵措施1:構建全鏈路、主動、智能的全方位、多手段和多指標監(jiān)控體系
運維系統需要支持從機房設施、物理基礎設施、跨數據中心骨干網絡、虛擬化資源池到云服務和應用的統一管理,實現多數據中心和多維度的集中監(jiān)控。
當數據中心出現故障時,通過系統運行狀態(tài)可視化,可以快速獲取每個數據中心中資源和云服務的當前和歷史運行狀態(tài),可以查看的信息包括性能容量、關聯對象與告警,以及拓撲與各類日志信息。
關鍵措施2:系統運行狀態(tài)可視化
在重點業(yè)務的服務運營保障中,通過可視化展示應用拓撲及其健康狀態(tài),可以使云基礎架構與業(yè)務應用的各項運行指標和變化趨勢一覽無余。
通過提供各類運維對象的性能容量、告警統計與分析、資源利用率的報表,以及健康度和容量預測報告,IT運維人員與管理人員可以利用這些信息來支撐月度/季度的運維質量分析和年度IT架構規(guī)劃。
智能故障定位:云時代由于分布式和微服務化軟件架構的流行,業(yè)務調用關系愈發(fā)復雜,出現故障后,對故障的快速定位形成了很大的挑戰(zhàn)。
關鍵措施1:利用業(yè)務流跟蹤系統快速故障定界
針對云服務微服務化后調用關系復雜和故障定位難的問題,需要有輔助定位工具來提高故障定位效率。通過對服務調用各環(huán)節(jié)SLA的監(jiān)控來快速定位故障點,可以將故障定位的時間從小時級縮短到分鐘級。
關鍵措施2:構建專家診斷系統,智能根因定位、已知故障自動化恢復處理
例行進行故障總結分析與持續(xù)積累,通過專家診斷系統將專家經驗固化,可以實現故障定位的智能化和已知典型故障的自動恢復操作。
自動故障修復:云數據中心規(guī)模的擴大帶來了一個很大的問題——故障數量的提升。根據華為自己的數據中心運維經驗,一個較大規(guī)模的云數據中心,如果不進行故障的自動化歸類和處理,每日各種級別的故障單可能超過上千個。因此,迫切需要運維系統能夠識別常見的故障,并有相關的故障自愈策略進行匹配。當故障發(fā)生時自動執(zhí)行閉環(huán)策略,對于常見故障無需人工干預即可自動閉環(huán)解決。
智能化容量運營提升資源利用率
傳統數據中心中,各業(yè)務部門獨立部署的業(yè)務系統無法共享,服務器的利用率小于20%。數據中心云化后,云資源能夠實現資源共享和動態(tài)調配,但同時也帶來了碎片化、負載不均衡和SLA保障困難等挑戰(zhàn)。
智能化的容量管理結合了大數據分析預測技術,將云數據中心內物理資源(如服務器、存儲和網絡等資源)和云資源(如虛擬機和塊存儲等)的實時容量視圖、容量快照、負載現狀和趨勢,以及容量碎片呈現出來。針對資源負載不均的問題,傳統運維平臺因無法進行遷移/彈性伸縮而導致無法調整。而在云數據中心中,容量管理會向運維管理員提供低負載資源的分布信息,并提供縮減資源規(guī)格的建議;資源碎片化一般會導致20~30%“資源不可用”的情況,容量碎片管理向運維管理員提供各種資源規(guī)格的物理分布視圖,并提供資源調整建議,提升現有資源的利用率。
云資源利用率達到一定閾值時,規(guī)劃人員就需要考慮未來擴容問題。傳統的容量預測主要依靠人的有限經驗與數據來進行不可預知的擴容,往往會造成資源閑置率超過20~30%。而智能化的容量管理將資源的容量數據、應用行為分析、實際性能數據以及財務信息等相結合,對業(yè)務部門的關鍵應用對未來IT基礎架構的各種資源容量的訴求進行高度準確和可靠的智能預測,向規(guī)劃人員提供未來資源容量的趨勢分析,供規(guī)劃人員制定有效的采購和擴容計劃,滿足用戶未來資源的高效利用。
智能化的容量管理能夠實現現狀可視、問題可察、風險可辨、未來可測和調整可控,使云數據中心內資源的利用率提升到70%以上的水平。

開放的華為云運維平臺
云數據中心運維的實踐效果
運維比較成功的云數據中心,通過自動化和智能化的運維體系,面對百萬級的服務器規(guī)模,在保障用戶級99.95%甚至更高服務質量的前提下,實現了云數據中心運維效率的結構性提升:人均維護效率從傳統人均50~100臺提升至5000~10000臺,效率提升100倍以上;而總體資源利用率從傳統小于20%提升至60~70%,效率提升3倍以上(見下表)。

比如,華為的研發(fā)采用云服務,通過標準化、自動化與智能化運維,目前已做到了11人維護10萬臺設備,資源使用率從10%以下提升至40~50%。
同時,自動化、智能化和可視化運維平臺的引入,使傳統運維人員擺脫了以往機械式、重復性和低價值的日常工作,也最大限度地避免了人為錯誤的發(fā)生,間接保障了IT服務的質量,降低了運營成本。更重要的是,運維人員可以更多地投入到有價值和創(chuàng)造性的工作中,比如架構設計、開發(fā)以及新技術的評估和引入,以更好地支持企業(yè)的業(yè)務創(chuàng)新,更好地體現IT團隊及個人在企業(yè)中的價值。
另外,通過自動化和智能化運維平臺的引入,能夠更好地通過工具的方式固化規(guī)范的IT運維管理流程。通過自動化流程的方式實現整體IT運維的規(guī)范性、標準化和合規(guī)性,以此保障對業(yè)務系統所承諾的服務質量(SLA),支持企業(yè)業(yè)務的健康發(fā)展。
華為云數據中心運維解決方案最佳實踐
華為云數據中心運維解決方案除了幫助企業(yè)構筑一個自動化、智能化和可視化的運維平臺外,還引入了華為多年來的實踐經驗,以及在新技術上探索的成果。

客戶服務中心業(yè)務服務體系
運維經驗沉淀、運維能力產品化
華為內部的運維團隊負責維護著海量規(guī)模的華為企業(yè)云與私有云,月度進行運維質量分析、運維故障統計分析與經驗總結,對于高危、重復度高的運維操作要求實現操作自動化。華為自營的企業(yè)云采用DevOps模式來快速構建和完善運維能力,經過充分驗證后將運維能力進行產品化,納入到華為云運維解決方案基線版本,保證華為內部運維的最佳實踐可以批量提供給客戶使用。比如前面提到的ECS服務調用鏈跟蹤工具,就是日常運維經驗沉淀的范例之一,通過整合到運維平臺來不斷提升運維能力。
能力開放構建云運維生態(tài)
華為提供了云運維的開發(fā)者社區(qū),通過對外開放多層次API滿足各類場景的應用開發(fā)需求,支持合作伙伴在云運維平臺上持續(xù)積累、豐富運維的組件和工具,打造云運維的生態(tài)。
服務層的開放:所有服務Console使用的接口都對外開放,第三方可定制符合各行業(yè)場景的界面和Portal。
后臺服務層的開放:所有運維服務通過統一的API GateWay對外開放,第三方可以基于接口開發(fā)新的運維工具,或對接第三方運維工具或系統。比如,基于開放的告警服務和資源管理服務開發(fā)本領域特有的業(yè)務拓撲視圖,并實現業(yè)務節(jié)點狀態(tài)的可視化;在混合IT架構下,性能容量、配置信息與日志都可以通過API GateWay對接客戶自有的集中運維管理平臺,實現全局共享一套運維體系。
設備接入層開放:提供南向驅動插件框架,第三方可以自行開發(fā)設備驅動,通過驅動管理服務動態(tài)接入新的設備對象,比如ZOHO開發(fā)的驅動已實現了非華為設備的監(jiān)控上報管理。
微服務架構與容器化部署
華為云運維系統采用微服務架構支持容器化部署,具備良好的敏捷交付和可擴展能力。其中敏捷交付是指每個微服務都獨立開發(fā)、發(fā)布和演進,可以快速迭代;易擴展是指每個微服務都可以獨立部署并彈性擴展,保證了整個運維系統具備很強的擴展性,在小規(guī)模時可最小化部署,然后隨著規(guī)模增長按需增加資源;而支持容器化部署,則大大削減了管理節(jié)點的成本開銷。
全球化的技術支持體系
華為在運營商領域(CT)持續(xù)耕耘了28年,已在全球建立了完善的技術支持體系,全球設有2個GTAC和多個RTAC,培養(yǎng)出了一批又一批技術過硬的專家,在IT領域可以復用這套全球化的技術支持體系。
華為提供多種運維模式供客戶選擇,包括客戶自運維、華為現場代維或遠程代維?蛻糇赃\維過程中遇到故障時可拔打7×24小時客服熱線,同時也可選擇部署CloudService實現自動報障,以及eCare全流程監(jiān)控確?蛻魡栴}得到及時和有效的解決。

IT運維體系全景
支持全棧式管理
借助在ICT基礎設施運維領域的深厚積累,并充分利用自身產品線齊全的優(yōu)勢,華為提供了涵蓋服務器、存儲、網絡、虛擬資源池、云服務和應用在內的完整的云數據中心管理能力,全棧的管理范圍為端到端的業(yè)務監(jiān)控、端到端的故障診斷定位,以及端到端的全生命周期自動化等能力的構建打下了基礎。
近3年來,華為云數據中心的規(guī)模實現了數倍增長,但依托這套運維解決方案,在運維人員增長不到10%的情況下,SLA卻達到了99.6%的水平,計算資源的平均利用率也達到50%以上,很好地支撐了研發(fā)業(yè)務的敏捷高速發(fā)展。比如,在2016年國慶假期的數據中心停電檢修與版本升級變更中,涉及了分布在全國各地的11個機房、1.5萬臺物理服務器和30萬個虛擬機,如果按照傳統的運維能力計算,每位運維人員只能處理3000~4000個虛擬機,此次變更共需要投入100人才能實施完成;而借助智能化運維平臺所具有的一鍵式上下電和批量版本升級操作能力,實際投入不到20人就完成了實施,每個機房上下電時長縮短了一倍(由10小時縮減至5個小時)。
云運維作為云計算必不可少的組成部分,會越來越展示出其重要性,成為云計算的核心競爭力之一。下一步華為將加大人工智能在云運維的投入與實踐,讓數據中心機器人融入更多的運維業(yè)務場景,替代傳統的手工操作,提供高度自動化和智能化的“無人值守”式云數據中心運維解決方案。
馬力/文