中國的(de)基礎網絡環境之(zhi)(zhi)復雜堪(kan)居世(shi)界各國之(zhi)(zhi)首(shou),隨著視頻、直播、游(you)戲、語(yu)音、電商等流量(liang)大(da)、用(yong)戶(hu)體(ti)驗要求高(gao)、用(yong)戶(hu)分布地域(yu)廣的(de)互聯網應用(yong)場景,以(yi)單(dan)點部署(shu)方式(shi)早已無法(fa)滿(man)足業務的(de)需(xu)求,分布式(shi)應用(yong)部署(shu)方式(shi)已經成為(wei)保障業務高(gao)可用(yong)的(de)必然之(zhi)(zhi)選(xuan)。隨之(zhi)(zhi)而來的(de)可用(yong)性監控成為(wei)分布式(shi)系(xi)統的(de)一大(da)難題。
以某頂級(ji)(ji)IDC服(fu)(fu)務(wu)商同(tong)時也是(shi)國(guo)內最大的第三(san)方(fang)獨立為(wei)(wei)例,該服(fu)(fu)務(wu)商將(jiang)全國(guo)的劃分(fen)為(wei)(wei)三(san)個層(ceng)(ceng)次,即(ji)以北(bei)上廣(guang)等核心(xin)城(cheng)市為(wei)(wei)核心(xin)層(ceng)(ceng),以互聯網大省、骨干城(cheng)市為(wei)(wei)骨干層(ceng)(ceng),以二三(san)級(ji)(ji)城(cheng)市為(wei)(wei)邊緣層(ceng)(ceng)。其客(ke)戶(hu)根據(ju)應用(yong)等級(ji)(ji)及用(yong)戶(hu)分(fen)布區域,通過(guo)在(zai)全國(guo)范圍的科學選點,將(jiang)應用(yong)分(fen)別(bie)部署(shu)在(zai)不同(tong)層(ceng)(ceng)級(ji)(ji)的城(cheng)市數據(ju)中心(xin),以降(jiang)低總(zong)部署(shu)成本,提升用(yong)戶(hu)體驗(yan),同(tong)時在(zai)自(zi)身IT運維和客(ke)戶(hu)服(fu)(fu)務(wu)保障過(guo)程中積累了豐富(fu)的分(fen)布式系統高可用(yong)監(jian)控(kong)經驗(yan)。
簡單易用(yong)的內(nei)部(bu)應用(yong)系(xi)統(tong)監控
眾所周知(zhi),當企業部(bu)署了分布式系(xi)(xi)統(tong)(tong),IT設備(bei)數(shu)量和系(xi)(xi)統(tong)(tong)規模就會(hui)呈幾何級數(shu)迅速(su)增長,運維部(bu)門規模往往落后于系(xi)(xi)統(tong)(tong)增速(su),而原(yuan)有單點監(jian)控(kong)系(xi)(xi)統(tong)(tong)的(de)轉型并(bing)非易(yi)事。下面就以這家(jia)IDC服(fu)務(wu)商為例,從內、外兩(liang)個維度探討一(yi)下高可用IT監(jian)控(kong)系(xi)(xi)統(tong)(tong)的(de)建設。
在內網監控方(fang)(fang)面,注重的是內部(bu)IT設備的可用性。運維(wei)部(bu)門陸續(xu)使用過Smokeping,Open-falcon,cacti之類監控系統(tong),最終都(dou)不了了之:Smokeping依賴的包、組(zu)件過多,安(an)裝搭建配置繁瑣,圖形參數較多,需要(yao)查閱大(da)量文(wen)檔;Open-falcon部(bu)署測試了0.2.0版本,雖然(ran)機制不錯,但易用性有(you)待(dai)提(ti)高;cacti主要(yao)用于收集歷(li)史(shi)數據和(he)畫圖,但在監視大(da)量上跑的服(fu)務(wu)是否正常、告警方(fang)(fang)面,雖有(you)插(cha)件支持,但效果(guo)很(hen)不理想(xiang)。
之后(hou),運維部門選擇了入(ru)門容易、上手簡(jian)單(dan)、開(kai)源(yuan)免費(fei)的(de)Zabbix。Zabbix易于管(guan)理和(he)配置,減輕日常管(guan)理的(de)工作量,豐富的(de)數據(ju)采集方(fang)式(shi)和(he)API接(jie)口可以讓(rang)用戶靈活(huo)進(jin)行(xing)數據(ju)采集,而分布(bu)式(shi)系(xi)統架構(gou)可以支(zhi)持監控更多的(de)IT設備。
通過Zabbix監控大網出(chu)口(kou)對全國ping延遲的綜合(he)匯總(zong)頁面:
用Grafana簡(jian)單(dan)包裝一下,可(ke)以看到的(de)詳細(xi)運行數(shu)據:
內(nei)外兼修的(de)外網高可用監控
、虛(xu)擬(ni)化技術的(de)(de)廣泛應用(yong),分(fen)布式系(xi)統(tong)的(de)(de)后端IT設備和服務(wu)的(de)(de)穩定性逐(zhu)步提(ti)高,而(er)復雜的(de)(de)用(yong)戶網絡接入環境、IDC機房(fang)鏈路(lu)、CDN加速等環節對業務(wu)質量的(de)(de)影響越來越大。很(hen)多時候,造成用(yong)戶體驗<a href="//lctw.com.cn">安防器材批發佳和服務(wu)不可用(yong)的(de)(de)原因(yin)都是(shi)外部(bu)(bu)(bu)的(de)(de),而(er)這是(shi)部(bu)(bu)(bu)署在IT系(xi)統(tong)內部(bu)(bu)(bu)的(de)(de)Zabbix無法監控的(de)(de)。
因(yin)此,運維部門需(xu)要(yao)一套更準確、更全(quan)(quan)(quan)面的(de)(de)入向監(jian)(jian)(jian)控(kong)(外部監(jian)(jian)(jian)控(kong))來保障業務(wu)的(de)(de)高可(ke)用(yong)(yong)。監(jian)(jian)(jian)控(kong)寶是享譽國(guo)內運維圈(quan)的(de)(de)IT性(xing)能(neng)(neng)(neng)監(jian)(jian)(jian)控(kong)神器,通過覆蓋全(quan)(quan)(quan)國(guo)所有省份和世界(jie)主(zhu)要(yao)國(guo)家的(de)(de)300多(duo)個分布式(shi)監(jian)(jian)(jian)測(ce)節點(dian),對外部網(wang)(wang)絡鏈路進(jin)(jin)行(xing)穩定(ding)性(xing)和可(ke)用(yong)(yong)性(xing)的(de)(de)實時(shi)監(jian)(jian)(jian)控(kong)和秒級告警服務(wu)。監(jian)(jian)(jian)控(kong)寶支持http/https、ping、udp、tcp、smtp、traceroute等主(zhu)流數(shu)據傳(chuan)輸協(xie)議,能(neng)(neng)(neng)夠準確測(ce)量鏈路質量、CDN效果及DNS狀態,為(wei)企(qi)業的(de)(de)互聯網(wang)(wang)業務(wu)進(jin)(jin)行(xing)全(quan)(quan)(quan)網(wang)(wang)、全(quan)(quan)(quan)地域性(xing)能(neng)(neng)(neng)趨(qu)勢分析(xi)。
監控(kong)寶(bao)除了(le)網站監控(kong)外(wai),還包含服務(wu)器監控(kong)、API監控(kong)、中間件和數(shu)據(ju)庫監控(kong),無需部署,無任何(he)侵(qin)入式插件,即可獲得第一(yi)手全(quan)面實時的監控(kong)數(shu)據(ju)。同時,監控(kong)寶(bao)覆(fu)蓋最(zui)全(quan)面的告警通(tong)知方式,包括郵件、短信(xin)、電話語音、App Push、URL回調等。而(er)且,監控(kong)寶(bao)根據(ju)每月監測數(shu)據(ju),出具權威的第三(san)方SLA證書,幫(bang)助企業(ye)(ye)對CDN質量(liang)、云服務(wu)質量(liang)和業(ye)(ye)務(wu)質量(liang)進行有效評估。
除此(ci)之(zhi)外,監(jian)(jian)控(kong)寶通過(guo)API實(shi)現(xian)Zabbix等監(jian)(jian)控(kong)平臺的告警<a href="//lctw.com.cn">安防器材批發(fa)據的接入和聚合,并在(zai)定(ding)制化開發(fa)的可(ke)視(shi)化大屏上進行統一監(jian)(jian)控(kong)和統一告警,從而(er)實(shi)現(xian)IT系統健康和業(ye)務監(jian)(jian)控(kong)的統一管理(li)。得(de)益于監(jian)(jian)控(kong)寶和Zabbix,這家中(zhong)國最(zui)大的第三方獨立數據中(zhong)心實(shi)現(xian)了分布式系統高可(ke)用監(jian)(jian)控(kong)的內外兼(jian)修。