隨著電子商務(wu)、云計(ji)算、大(da)數(shu)據、人工智能、互聯網金融(rong)等應用(yong)的快(kuai)速(su)發展,數(shu)據中心單體(ti)規(gui)模(mo)越(yue)來(lai)越(yue)大(da)、系統越(yue)來(lai)越(yue)復雜,應對的挑戰也越(yue)來(lai)越(yue)多。
一個好的數據(ju)中(zhong)心需(xu)要(yao)通過科學(xue)的運維管理,充分利(li)用技術(shu)和設備(bei)資(zi)源(yuan),將運行成本降到最低,同時能(neng)源(yuan)利(li)用率最大化(hua)。
京東在宿(su)遷(qian)的(de)自建(jian)數據中(zhong)心,按照世界一流(liu)數據中(zhong)心的(de)理念(nian)設計和建(jian)設,也按照國(guo)際先進的(de)運營(ying)管(guan)理模式投(tou)入(ru)運行。
作為(wei)數據中(zhong)心生(sheng)命周期中(zhong)最重(zhong)要的一環(huan)(huan),如(ru)何針對基礎設(she)施,各種IT設(she)備,信息與(yu)數據,應用軟件等各方(fang)面展開數據中(zhong)心的運(yun)維管(guan)理(li),為(wei)基礎設(she)施和信息系(xi)統提供穩(wen)定可靠(kao)的運(yun)行(xing)環(huan)(huan)境,確保他們安全,穩(wen)定,可靠(kao),持(chi)續并高效(xiao)的運(yun)行(xing)。
京(jing)東IDC建設(she)的(de)(de)技術專家(jia)們,設(she)計(ji)并落地了一套先(xian)進的(de)(de)、可(ke)靠的(de)(de)智能(neng)化基礎設(she)施(shi)運維管理體系(xi),進行系(xi)統性的(de)(de)支撐。
接下來(lai)的內(nei)容,我們將通過京(jing)東(dong)自(zi)建(jian)數(shu)據(ju)中心在運營維護中的人,制(zhi)度,流程規范,監控管理等各個方面,一窺這里(li)是如何(he)高效滿足京(jing)東(dong)不斷增長(chang)的業務需求。
1人
京東(dong)IDC建設部技(ji)術(shu)(shu)專(zhuan)家劉銘談到(dao):人是(shi)數據中(zhong)心(xin)(xin)IT設施運維管(guan)(guan)理(li)(li)的基礎,也是(shi)管(guan)(guan)理(li)(li)的核(he)心(xin)(xin),正所謂是(shi)三分(fen)靠技(ji)術(shu)(shu),七(qi)分(fen)靠管(guan)(guan)理(li)(li)。京東(dong)在(zai)宿遷的自建數據中(zhong)心(xin)(xin),設施運維管(guan)(guan)理(li)(li)核(he)心(xin)(xin)團隊組(zu)建于數據中(zhong)心(xin)(xin)建設初期,主(zhu)要的專(zhuan)業技(ji)術(shu)(shu)管(guan)(guan)理(li)(li)人員都深(shen)度參與(yu)了整個數據中(zhong)心(xin)(xin)園區的工程建設以及測試驗證等重要環節(jie)。
在數據中心交付(fu)之前,他們(men)就已經充(chong)分的了解這個數據中心基礎設施(shi)系統的構成,掌(zhang)握了數據中心設計、施(shi)工、變更(geng)、整改(gai)的技術(shu)文檔(dang)和測試數據,哪些是今(jin)后運維工作(zuo)的特別關注點(dian),都熟(shu)記于心。
京東自(zi)建數據中(zhong)心的(de)實施運維團(tuan)隊主(zhu)要有兩(liang)大工作(zuo)職能。第一個是實行(xing)7*24小時輪崗工作(zuo)制的(de)運維巡(xun)檢團(tuan)隊,他們對(dui)基礎(chu)設(she)備設(she)施進行(xing)巡(xun)檢,第一時間發現故障或問(wen)題。
第二個是對數據(ju)中心基礎(chu)設施(shi)提供運維(wei)技術支持,解(jie)決技術問題的技術管(guan)理團隊,他們承擔(dan)數據(ju)中心場地基礎(chu)設施(shi)的優化改造工(gong)程和項目(mu)管(guan)理工(gong)作,也是運維(wei)管(guan)理的核心團隊。
2制度
設備臺賬制度
給每個(ge)獨立的(de)(de)數據中(zhong)心模塊建立完整并實時更(geng)新的(de)(de)設(she)(she)備(bei)臺賬(zhang)。臺賬(zhang)包括(kuo)所有關鍵基礎設(she)(she)施設(she)(she)備(bei)的(de)(de)清單,并完整記錄(lu)這些(xie)設(she)(she)備(bei)設(she)(she)施的(de)(de)運行情況、事件情況、變(bian)更(geng)情況、維護(hu)保(bao)養(yang)頻次等信息。
對影響安全運(yun)(yun)行的(de)關(guan)(guan)鍵設備,比如UPS、冷水機組、精密空調等的(de)設定參數以(yi)及關(guan)(guan)鍵點的(de)報警閥值制(zhi)定了統(tong)一管理制(zhi)度,結合(he)數據中(zhong)心實際運(yun)(yun)行情況與技(ji)術,討(tao)論后按(an)統(tong)一參數值設定,運(yun)(yun)維(wei)巡檢人(ren)員不(bu)可以(yi)隨意修(xiu)改。
預防性(xing)維護計劃
為了延長設(she)備的(de)(de)使用壽命,減少設(she)備故障的(de)(de)概率,必須(xu)對所有(you)設(she)備設(she)施進行有(you)計劃的(de)(de)維護。提前制定月度、季度、年度的(de)(de)預防性維護計劃。
運(yun)維(wei)人員會按照設備和(he)系統的特性、維(wei)護流程及規(gui)范,及時、完(wan)整(zheng)的落實維(wei)護工(gong)作,并形成客觀實際的記錄和(he)報告存(cun)檔。
此外(wai),運(yun)維(wei)團隊還定期對設備運(yun)行(xing)狀態的數據進(jin)行(xing)統計和(he)趨勢量化(hua)分析,對于異常的趨勢,及時作出(chu)報警和(he)相關預案。
通(tong)過(guo)定期(qi)檢查(cha)和(he)保養,使得(de)設(she)備設(she)施(shi)的某些缺陷或隱患在變得(de)更嚴重(zhong)之前被發現。
維修工單制度
運維人員(yuan)在(zai)接到工(gong)單(dan)(dan)時(shi),能明確獲悉工(gong)作(zuo)任務與注(zhu)意事項,提(ti)前熟(shu)悉操(cao)作(zuo)流(liu)程,做到心中有數。在(zai)維修操(cao)作(zuo)過程中,工(gong)單(dan)(dan)也可以起到指導操(cao)作(zuo)的(de)作(zuo)用;在(zai)維修工(gong)作(zuo)結束(shu)交(jiao)單(dan)(dan)、備案歸檔。如果在(zai)維修過程中遇(yu)到困難,也便于及時(shi)通(tong)過上溯的(de)渠道,快(kuai)速解(jie)決問題。
3監控
京東在宿遷的自(zi)建數據中心園區中,包含有4個(ge)數據中心模(mo)塊,每個(ge)模(mo)塊都(dou)配置有一個(ge)獨立的監控中心,整個(ge)園區中心位置設置了綜合監控中心ECC。
ECC的(de)綜合(he)智(zhi)能監(jian)控(kong)管理平臺(tai),可以實(shi)現(xian)對數據中心各設備和系統的(de)統一監(jian)控(kong)與管理,提(ti)高整個系統的(de)運行可靠性、穩定(ding)性和擴展性,實(shi)現(xian)機房的(de)科學管理。
作(zuo)為(wei)園區級的監(jian)控平臺,ECC很好(hao)的實現了:
1、可(ke)視化展示各設備設施實時狀態(tai),實時掌(zhang)握(wo)可(ke)用性狀況;
2、業(ye)務(wu)(wu)流程規(gui)范化管理(li),變更風險管控,降低變更帶給(gei)業(ye)務(wu)(wu)的(de)影響;
3、復(fu)雜(za)事件分析(xi)處理(li),準確定位故障;大數(shu)據分析(xi),智能(neng)預警;
4、設備部(bu)署合理化,平(ping)衡(heng)各維度容(rong)量(liang)綜合利用率,避免(mian)單項容(rong)量(liang)短板(ban);
5、可(ke)視化容(rong)量管理,直(zhi)觀展示容(rong)量使用情(qing)況及趨勢(shi)分析,擴容(rong)決策及時(shi)準確;
6、提(ti)供多維度(du)運(yun)行分析報告,為運(yun)營決策提(ti)供數據支持;
7、重大故(gu)障可實時(shi)準確提供數據中(zhong)心應(ying)急預案;
模塊級的監(jian)(jian)控(kong)(kong)系(xi)統對基礎設施的監(jian)(jian)控(kong)(kong)包(bao)括電(dian)氣,動(dong)力,環境三部分,實時進行監(jian)(jian)測和(he)展(zhan)示被(bei)監(jian)(jian)控(kong)(kong)的設備(bei)。
系統(tong)的(de)架構包(bao)含現場設備的(de)數據采集層、現場設備監控層和集中重慶監控</a> //lctw.com.cn監控層。
現(xian)場設備數據(ju)采集層(ceng):由各(ge)種I/O采集模塊(kuai)組成(cheng),連(lian)接(jie)所(suo)有傳(chuan)感器和被(bei)監控設備,實現(xian)監控平臺與(yu)被(bei)監控對象(xiang)的數據(ju)通訊。所(suo)有硬件采用模塊(kuai)化架(jia)構,I/O模塊(kuai)采集傳(chuan)感器數據(ju)后,通過系統配置實現(xian)對所(suo)有傳(chuan)感器的數據(ju)匹(pi)配對應,直接(jie)接(jie)入現(xian)場監控層(ceng)。
現場設(she)備(bei)監控層(ceng):由多臺嵌入(ru)式(shi)服務器(qi)或(huo)獨(du)立網絡控制器(qi)組成,負(fu)責(ze)收集(ji)與(yu)處理由現場設(she)備(bei)采集(ji)層(ceng)發送過來(lai)的(de)數據(ju)。
模(mo)塊集中監(jian)(jian)(jian)控(kong)(kong)層:采集現(xian)場設(she)備監(jian)(jian)(jian)控(kong)(kong)層上傳的(de)數(shu)據,對模(mo)塊內的(de)現(xian)場監(jian)(jian)(jian)控(kong)(kong)服(fu)務(wu)器進(jin)行集中管理(li),實(shi)時監(jian)(jian)(jian)測組內基礎設(she)施的(de)參(can)數(shu)、狀態(tai),并提供遠程瀏覽(lan)。在這(zhe)個模(mo)塊中的(de)監(jian)(jian)(jian)控(kong)(kong)數(shu)據,可以直接上傳至園區綜合(he)監(jian)(jian)(jian)控(kong)(kong)中心ECC的(de)綜合(he)監(jian)(jian)(jian)控(kong)(kong)層。
集中(zhong)(zhong)管(guan)理(li)平(ping)(ping)臺配置了“雙服(fu)務(wu)器+雙數據庫(ku)”,實現(xian)容錯(cuo)配置。也開(kai)發了移動終端(duan)操控平(ping)(ping)臺,可以對數據中(zhong)(zhong)心的基(ji)礎業務(wu)進行(xing)實時操控
京東IT資源服務部負責人呂(lv)科說:“京東自(zi)建(jian)(jian)數(shu)(shu)據(ju)中(zhong)心(xin)(xin)(xin)的設(she)施運(yun)維(wei)(wei)管理(li)有(you)(you)一個(ge)(ge)非常(chang)重(zhong)要(yao)的目(mu)標,那就是(shi)(shi)要(yao)“建(jian)(jian)立(li)一套持續(xu)改進的機(ji)制”,這(zhe)一點往(wang)往(wang)容易被行(xing)業從(cong)業人員所忽略。數(shu)(shu)據(ju)中(zhong)心(xin)(xin)(xin)設(she)施運(yun)維(wei)(wei)管理(li)與(yu)數(shu)(shu)據(ju)中(zhong)心(xin)(xin)(xin)設(she)施系(xi)統建(jian)(jian)設(she)階(jie)段的項目(mu)管理(li)有(you)(you)很大(da)的不(bu)同,項目(mu)管理(li)是(shi)(shi)一次(ci)性的,必須保(bao)障“當前(qian)最(zui)佳”。而數(shu)(shu)據(ju)中(zhong)心(xin)(xin)(xin)運(yun)維(wei)(wei)管理(li)則是(shi)(shi)一個(ge)(ge)不(bu)斷(duan)迭代(dai)的過程,“一套持續(xu)改進的機(ji)制”可以保(bao)障數(shu)(shu)據(ju)中(zhong)心(xin)(xin)(xin)運(yun)行(xing)效(xiao)率(lv)不(bu)斷(duan)提高、重(zhong)慶監控</a> //lctw.com.cn運(yun)行(xing)成本不(bu)斷(duan)降低(di)。數(shu)(shu)據(ju)中(zhong)心(xin)(xin)(xin)的設(she)施運(yun)維(wei)(wei)工(gong)作(zuo)就是(shi)(shi)這(zhe)樣一個(ge)(ge)不(bu)斷(duan)優化(hua)的過程,這(zhe)也是(shi)(shi)我們的目(mu)標:沒有(you)(you)最(zui)好(hao),只有(you)(you)更(geng)好(hao)。”