隨著電子(zi)商務、云(yun)計(ji)算、大數據(ju)、人工智能、互(hu)聯(lian)網金融等(deng)應(ying)用的(de)快速發展,數據(ju)中心單體規模越(yue)來越(yue)大、系統越(yue)來越(yue)復(fu)雜,應(ying)對的(de)挑戰(zhan)也越(yue)來越(yue)多(duo)。
一個好的(de)數據中(zhong)心需要通過科學的(de)運(yun)維管(guan)理,充分利用(yong)技(ji)術和設備資(zi)源,將(jiang)運(yun)行成本降到最(zui)低,同時能(neng)源利用(yong)率最(zui)大化。
京東在宿遷的(de)自(zi)建數據中心(xin)(xin),按照(zhao)世界一流數據中心(xin)(xin)的(de)理念設(she)計(ji)和建設(she),也按照(zhao)國(guo)際(ji)先進的(de)運(yun)營管理模(mo)式(shi)投(tou)入運(yun)行。
作為數(shu)據中(zhong)心生命(ming)周期中(zhong)最(zui)重(zhong)要的(de)一環,如何(he)針對基(ji)礎(chu)設施,各(ge)(ge)種(zhong)IT設備,信(xin)息與數(shu)據,應用軟件(jian)等各(ge)(ge)方(fang)面展開數(shu)據中(zhong)心的(de)運維(wei)管理,為基(ji)礎(chu)設施和(he)信(xin)息系(xi)統提(ti)供穩定可(ke)靠的(de)運行(xing)環境,確(que)保(bao)他們(men)安全(quan),穩定,可(ke)靠,持(chi)續并高效的(de)運行(xing)。
京東IDC建設(she)(she)的(de)技術專(zhuan)家們,設(she)(she)計并落地了一套先進的(de)、可靠的(de)智(zhi)能化基礎設(she)(she)施運維管理體系,進行(xing)系統性的(de)支(zhi)撐。
接下(xia)來(lai)的內容,我們將通(tong)過京東自建數(shu)據(ju)中(zhong)心在運營維護(hu)中(zhong)的人(ren),制度(du),流程規范,監控管(guan)理等各(ge)個方面,一(yi)窺這里是如何高效滿足京東不斷增(zeng)長的業務需(xu)求(qiu)。
1人
京東IDC建(jian)設(she)(she)部技(ji)(ji)(ji)術專(zhuan)(zhuan)家(jia)劉銘談到:人是(shi)數據中(zhong)(zhong)心IT設(she)(she)施運維管(guan)理(li)的(de)基(ji)礎,也是(shi)管(guan)理(li)的(de)核心,正所謂(wei)是(shi)三(san)分(fen)靠技(ji)(ji)(ji)術,七分(fen)靠管(guan)理(li)。京東在(zai)宿(su)遷的(de)自建(jian)數據中(zhong)(zhong)心,設(she)(she)施運維管(guan)理(li)核心團隊組建(jian)于數據中(zhong)(zhong)心建(jian)設(she)(she)初期,主要的(de)專(zhuan)(zhuan)業技(ji)(ji)(ji)術管(guan)理(li)人員都深度參(can)與了整個數據中(zhong)(zhong)心園區的(de)工程建(jian)設(she)(she)以及(ji)測試(shi)驗證等重要環節。
在數據中心(xin)交付之前,他們就已經充分的了解這個(ge)數據中心(xin)基礎設施系統的構成(cheng),掌握了數據中心(xin)設計、施工、變更(geng)、整改的技術文檔和測試數據,哪些是今后運維工作(zuo)的特別關注點,都(dou)熟記于(yu)心(xin)。
京(jing)東(dong)自建數據中心的(de)實施(shi)運維(wei)團隊主要有兩大工作職能。第(di)一(yi)個(ge)是(shi)實行(xing)7*24小時(shi)輪崗工作制的(de)運維(wei)巡(xun)檢團隊,他(ta)們(men)對基(ji)礎設備設施(shi)進行(xing)巡(xun)檢,第(di)一(yi)時(shi)間發現故障或(huo)問題(ti)。
第二(er)個是對(dui)數(shu)據中心(xin)基(ji)(ji)礎設施提(ti)供運維(wei)技(ji)術支持,解決技(ji)術問題的技(ji)術管理(li)團(tuan)隊,他們承擔數(shu)據中心(xin)場地基(ji)(ji)礎設施的優化改造工程(cheng)和項目(mu)管理(li)工作,也是運維(wei)管理(li)的核心(xin)團(tuan)隊。
2制度
設備臺賬制度
給每(mei)個獨立(li)的數據中心模塊建(jian)立(li)完整并實時更新的設(she)(she)(she)備(bei)臺賬(zhang)。臺賬(zhang)包括(kuo)所(suo)有關(guan)鍵基礎設(she)(she)(she)施設(she)(she)(she)備(bei)的清單,并完整記錄(lu)這些設(she)(she)(she)備(bei)設(she)(she)(she)施的運行(xing)情況、事件情況、變更情況、維護保養頻(pin)次等(deng)信息(xi)。
對影(ying)響安全運行(xing)(xing)的(de)關(guan)鍵(jian)設(she)備,比如UPS、冷水機組(zu)、精密空調等(deng)的(de)設(she)定參數(shu)(shu)以及關(guan)鍵(jian)點(dian)的(de)報警(jing)閥(fa)值(zhi)制定了(le)統一管(guan)理制度,結(jie)合數(shu)(shu)據中心實(shi)際運行(xing)(xing)情況與技術(shu),討論后(hou)按(an)統一參數(shu)(shu)值(zhi)設(she)定,運維(wei)巡檢人員不可以隨意修改。
預防(fang)性維護計劃
為了(le)延長設備(bei)的使(shi)用壽命,減少設備(bei)故(gu)障的概率,必須對所(suo)有設備(bei)設施進(jin)行有計劃(hua)(hua)的維(wei)護。提前制定月(yue)度、季度、年度的預防性(xing)維(wei)護計劃(hua)(hua)。
運(yun)維人員會按照設(she)備和(he)系統(tong)的(de)特(te)性(xing)、維護流程及規范,及時、完整的(de)落實維護工作,并(bing)形成(cheng)客(ke)觀實際的(de)記錄(lu)和(he)報告存檔。
此外,運(yun)維團隊還定期對設備運(yun)行狀態的數據進行統(tong)計和趨勢量化分析,對于異常的趨勢,及(ji)時(shi)作出報警和相關預案。
通過定(ding)期檢查和保養,使得設備設施(shi)的(de)某些缺陷或隱(yin)患在變得更嚴重之(zhi)前被發(fa)現。
維修工單制度
運維人員(yuan)在(zai)(zai)接到(dao)工(gong)(gong)單(dan)時,能明確獲悉(xi)工(gong)(gong)作(zuo)任務與(yu)注意事項,提前(qian)熟悉(xi)操作(zuo)流(liu)程(cheng)(cheng),做到(dao)心中有(you)數。在(zai)(zai)維修操作(zuo)過(guo)程(cheng)(cheng)中,工(gong)(gong)單(dan)也(ye)可(ke)以起到(dao)指導操作(zuo)的(de)作(zuo)用;在(zai)(zai)維修工(gong)(gong)作(zuo)結(jie)束交單(dan)、備案歸檔。如(ru)果(guo)在(zai)(zai)維修過(guo)程(cheng)(cheng)中遇(yu)到(dao)困難,也(ye)便于及時通過(guo)上溯的(de)渠道,快(kuai)速解決問(wen)題。
3監控
京東在宿遷的自建數(shu)據中(zhong)心(xin)(xin)園(yuan)區(qu)中(zhong),包含有(you)4個(ge)數(shu)據中(zhong)心(xin)(xin)模(mo)塊,每個(ge)模(mo)塊都配置有(you)一(yi)個(ge)獨(du)立的監控中(zhong)心(xin)(xin),整個(ge)園(yuan)區(qu)中(zhong)心(xin)(xin)位(wei)置設置了綜合監控中(zhong)心(xin)(xin)ECC。
ECC的綜合智能監控(kong)管(guan)理(li)平(ping)臺,可(ke)以實現對數據中心各設(she)備和(he)系統的統一監控(kong)與管(guan)理(li),提(ti)高(gao)整個系統的運行可(ke)靠(kao)性、穩定性和(he)擴展性,實現機(ji)房(fang)的科(ke)學(xue)管(guan)理(li)。
作為園(yuan)區級(ji)的(de)監(jian)控(kong)平臺,ECC很好的(de)實現了:
1、可視化(hua)展示(shi)各(ge)設備設施實時狀(zhuang)態,實時掌(zhang)握可用性(xing)狀(zhuang)況;
2、業(ye)務流程規范化管理,變(bian)更風險管控,降低變(bian)更帶給業(ye)務的(de)影響;
3、復雜事件分(fen)析處理,準確定位故障;大(da)數據分(fen)析,智能預警;
4、設(she)備部署合(he)理(li)化,平衡各維(wei)度容量綜合(he)利用(yong)率,避免(mian)單項容量短板(ban);
5、可視化(hua)容量管理(li),直觀展示容量使用情況及趨勢分析,擴容決策及時準確;
6、提(ti)供多維度運行分析(xi)報告(gao),為運營決(jue)策提(ti)供數據支持;
7、重大故障可(ke)實時準確提供數據中心應(ying)急預(yu)案;
模塊級(ji)的(de)監控(kong)(kong)系統(tong)對基礎(chu)設施的(de)監控(kong)(kong)包括電氣(qi),動力,環境(jing)三部(bu)分,實時進行監測和展示被監控(kong)(kong)的(de)設備。
系統(tong)的架(jia)構包含現場設(she)備的數據采集層(ceng)、現場設(she)備監控層(ceng)和(he)集中重慶監控</a> //lctw.com.cn監控層(ceng)。
現(xian)場設備(bei)數(shu)據采集層:由(you)各種I/O采集模(mo)塊組成,連(lian)接所(suo)(suo)有(you)(you)傳(chuan)感器和(he)被監控設備(bei),實現(xian)監控平(ping)臺(tai)與被監控對象(xiang)的數(shu)據通訊(xun)。所(suo)(suo)有(you)(you)硬件采用模(mo)塊化架(jia)構,I/O模(mo)塊采集傳(chuan)感器數(shu)據后,通過(guo)系統配置實現(xian)對所(suo)(suo)有(you)(you)傳(chuan)感器的數(shu)據匹配對應,直接接入(ru)現(xian)場監控層。
現場設備監(jian)控層:由多臺嵌入式服務器或(huo)獨立網絡控制器組(zu)成,負責(ze)收(shou)集(ji)與處理(li)由現場設備采(cai)集(ji)層發送過來的數據。
模(mo)塊(kuai)集(ji)中監(jian)控(kong)(kong)(kong)(kong)層:采集(ji)現場設(she)備監(jian)控(kong)(kong)(kong)(kong)層上傳(chuan)的數(shu)據(ju),對模(mo)塊(kuai)內(nei)的現場監(jian)控(kong)(kong)(kong)(kong)服務器進行集(ji)中管(guan)理,實時監(jian)測(ce)組內(nei)基礎(chu)設(she)施的參數(shu)、狀態(tai),并提供遠程瀏(liu)覽。在這個模(mo)塊(kuai)中的監(jian)控(kong)(kong)(kong)(kong)數(shu)據(ju),可以直接上傳(chuan)至園(yuan)區綜合監(jian)控(kong)(kong)(kong)(kong)中心ECC的綜合監(jian)控(kong)(kong)(kong)(kong)層。
集(ji)中管理平臺配置了(le)“雙(shuang)服務器+雙(shuang)數(shu)據庫”,實(shi)(shi)現容錯配置。也開發(fa)了(le)移動(dong)終端(duan)操控(kong)平臺,可以對數(shu)據中心(xin)的基礎(chu)業務進行實(shi)(shi)時操控(kong)
京(jing)東IT資源(yuan)服務部負責人呂科說:“京(jing)東自建(jian)數(shu)據(ju)中(zhong)(zhong)心的(de)(de)設施運(yun)維管(guan)理(li)有(you)(you)一(yi)(yi)個(ge)非常(chang)重(zhong)要的(de)(de)目(mu)(mu)標(biao),那就是(shi)要“建(jian)立(li)一(yi)(yi)套持(chi)續改(gai)(gai)進的(de)(de)機(ji)制(zhi)”,這(zhe)一(yi)(yi)點往往容易被(bei)行業從業人員(yuan)所忽略。數(shu)據(ju)中(zhong)(zhong)心設施運(yun)維管(guan)理(li)與數(shu)據(ju)中(zhong)(zhong)心設施系統建(jian)設階(jie)段的(de)(de)項(xiang)(xiang)目(mu)(mu)管(guan)理(li)有(you)(you)很大的(de)(de)不同(tong),項(xiang)(xiang)目(mu)(mu)管(guan)理(li)是(shi)一(yi)(yi)次(ci)性的(de)(de),必須保障“當前最佳”。而數(shu)據(ju)中(zhong)(zhong)心運(yun)維管(guan)理(li)則是(shi)一(yi)(yi)個(ge)不斷(duan)(duan)迭代的(de)(de)過程(cheng),“一(yi)(yi)套持(chi)續改(gai)(gai)進的(de)(de)機(ji)制(zhi)”可(ke)以保障數(shu)據(ju)中(zhong)(zhong)心運(yun)行效率不斷(duan)(duan)提(ti)高、重(zhong)慶監控</a> //lctw.com.cn運(yun)行成(cheng)本不斷(duan)(duan)降(jiang)低。數(shu)據(ju)中(zhong)(zhong)心的(de)(de)設施運(yun)維工作就是(shi)這(zhe)樣一(yi)(yi)個(ge)不斷(duan)(duan)優化的(de)(de)過程(cheng),這(zhe)也是(shi)我們的(de)(de)目(mu)(mu)標(biao):沒(mei)有(you)(you)最好,只有(you)(you)更(geng)好。”