中國的(de)(de)基礎(chu)網絡環境之(zhi)(zhi)復雜堪(kan)居世界(jie)各國之(zhi)(zhi)首,隨(sui)著(zhu)視(shi)頻、直播、游戲、語音、電商等流量大、用戶(hu)體驗要求高、用戶(hu)分布地(di)域廣的(de)(de)互(hu)聯網應用場景(jing),以單點部署(shu)方式(shi)早已無法滿足業務的(de)(de)需求,分布式(shi)應用部署(shu)方式(shi)已經成為保障(zhang)業務高可用的(de)(de)必然之(zhi)(zhi)選。隨(sui)之(zhi)(zhi)而來的(de)(de)可用性監控(kong)成為分布式(shi)系統的(de)(de)一大難題。
以(yi)某頂級IDC服務商同(tong)時(shi)也是(shi)國(guo)(guo)內最(zui)大(da)的第三方獨(du)立為例,該服務商將(jiang)全(quan)國(guo)(guo)的劃分(fen)(fen)為三個層(ceng)(ceng)次,即(ji)以(yi)北(bei)上廣(guang)等核(he)心城市為核(he)心層(ceng)(ceng),以(yi)互聯(lian)網大(da)省、骨干城市為骨干層(ceng)(ceng),以(yi)二三級城市為邊緣(yuan)層(ceng)(ceng)。其客戶根據(ju)應(ying)用等級及用戶分(fen)(fen)布區域,通(tong)過在全(quan)國(guo)(guo)范圍的科(ke)學選(xuan)點,將(jiang)應(ying)用分(fen)(fen)別部(bu)署(shu)在不同(tong)層(ceng)(ceng)級的城市數據(ju)中心,以(yi)降低(di)總部(bu)署(shu)成本,提升用戶體驗,同(tong)時(shi)在自身IT運維和客戶服務保障過程中積累了豐富的分(fen)(fen)布式(shi)系統高(gao)可(ke)用監控(kong)經(jing)驗。
簡(jian)單易用(yong)的內部應用(yong)系統監控(kong)
眾所周(zhou)知(zhi),當企業部署了(le)分布(bu)式系統,IT設備數量和系統規(gui)模就會呈幾何級數迅(xun)速增長,運維部門規(gui)模往(wang)往(wang)落(luo)后(hou)于(yu)系統增速,而(er)原有單(dan)點監(jian)(jian)控系統的轉型(xing)并非易事。下面(mian)就以(yi)這家IDC服(fu)務商(shang)為例,從內、外兩個維度(du)探討一(yi)下高可(ke)用IT監(jian)(jian)控系統的建設。
在內網監(jian)(jian)控方面,注(zhu)重的(de)是內部(bu)IT設備的(de)可用(yong)性(xing)。運維部(bu)門陸續(xu)使用(yong)過Smokeping,Open-falcon,cacti之類(lei)監(jian)(jian)控系統,最(zui)終都(dou)不了(le)了(le)之:Smokeping依(yi)賴的(de)包(bao)、組件過多(duo),安裝搭建配置繁瑣,圖(tu)形(xing)參數較多(duo),需(xu)要查閱大(da)量文檔;Open-falcon部(bu)署測試了(le)0.2.0版本(ben),雖(sui)(sui)然(ran)機制不錯,但(dan)(dan)易用(yong)性(xing)有待提(ti)高;cacti主要用(yong)于收集(ji)歷(li)史(shi)數據和畫圖(tu),但(dan)(dan)在監(jian)(jian)視(shi)大(da)量上(shang)跑的(de)服務是否正常、告警方面,雖(sui)(sui)有插(cha)件支持,但(dan)(dan)效果很(hen)不理想(xiang)。
之后,運維(wei)部門(men)選擇了(le)入門(men)容(rong)易、上手(shou)簡單、開源(yuan)免費的(de)Zabbix。Zabbix易于管理(li)(li)和配置,減輕日常管理(li)(li)的(de)工作(zuo)量,豐富的(de)數據采集方式和API接口可以(yi)讓用戶靈(ling)活進行數據采集,而分布式系統架構可以(yi)支(zhi)持(chi)監控更(geng)多(duo)的(de)IT設備(bei)。
通過(guo)Zabbix監控大網出(chu)口(kou)對全國ping延遲的綜合匯總(zong)頁面:
用Grafana簡單(dan)包裝一下,可以(yi)看到的詳細運行數據:
內外(wai)兼修的外(wai)網(wang)高(gao)可用監控
、虛擬化技術的廣泛(fan)應用,分布式系(xi)統的后端IT設備(bei)和(he)服務的穩(wen)定性逐步提(ti)高(gao),而(er)復雜的用戶(hu)網(wang)絡接入環(huan)(huan)境、IDC機房鏈(lian)路(lu)、CDN加速等(deng)環(huan)(huan)節(jie)對業務質量的影響越(yue)來越(yue)大。很多時候,造成用戶(hu)體驗(yan)<a href="//lctw.com.cn">安防器材批發佳和(he)服務不(bu)可(ke)用的原因都是外部的,而(er)這是部署(shu)在IT系(xi)統內部的Zabbix無法監控(kong)的。
因此,運維(wei)部門需要一套更準(zhun)確、更全(quan)面的(de)入向監(jian)控(kong)(kong)(外(wai)部監(jian)控(kong)(kong))來保障業務的(de)高可(ke)用。監(jian)控(kong)(kong)寶是享譽國內運維(wei)圈的(de)IT性(xing)能監(jian)控(kong)(kong)神器,通過覆蓋全(quan)國所有省(sheng)份和(he)世(shi)界主(zhu)要國家的(de)300多(duo)個分(fen)布式監(jian)測節點,對外(wai)部網絡鏈(lian)路進行穩(wen)定性(xing)和(he)可(ke)用性(xing)的(de)實時監(jian)控(kong)(kong)和(he)秒(miao)級(ji)告(gao)警服務。監(jian)控(kong)(kong)寶支持http/https、ping、udp、tcp、smtp、traceroute等主(zhu)流數據傳輸協(xie)議,能夠準(zhun)確測量(liang)鏈(lian)路質量(liang)、CDN效果及DNS狀態,為企業的(de)互聯(lian)網業務進行全(quan)網、全(quan)地域性(xing)能趨勢分(fen)析。
監(jian)(jian)控(kong)(kong)寶除了(le)網站監(jian)(jian)控(kong)(kong)外,還(huan)包(bao)(bao)含(han)服務器監(jian)(jian)控(kong)(kong)、API監(jian)(jian)控(kong)(kong)、中間件和數(shu)據(ju)庫(ku)監(jian)(jian)控(kong)(kong),無需部署,無任何侵入式插件,即(ji)可(ke)獲得第(di)一手全面實時的監(jian)(jian)控(kong)(kong)數(shu)據(ju)。同時,監(jian)(jian)控(kong)(kong)寶覆蓋最(zui)全面的告警(jing)通知(zhi)方式,包(bao)(bao)括郵件、短信(xin)、電話語音(yin)、App Push、URL回調(diao)等(deng)。而且,監(jian)(jian)控(kong)(kong)寶根據(ju)每月(yue)監(jian)(jian)測數(shu)據(ju),出具(ju)權威(wei)的第(di)三方SLA證書,幫助企業(ye)對CDN質(zhi)(zhi)量、云服務質(zhi)(zhi)量和業(ye)務質(zhi)(zhi)量進(jin)行有效(xiao)評(ping)估。
除此之外(wai),監(jian)控(kong)寶(bao)通過API實(shi)現(xian)Zabbix等監(jian)控(kong)平臺(tai)的告警(jing)(jing)<a href="//lctw.com.cn">安防器(qi)材批發(fa)據的接(jie)入和(he)聚合,并在定制化(hua)開(kai)發(fa)的可視化(hua)大屏上(shang)進(jin)行統(tong)(tong)一監(jian)控(kong)和(he)統(tong)(tong)一告警(jing)(jing),從而實(shi)現(xian)IT系統(tong)(tong)健康和(he)業務監(jian)控(kong)的統(tong)(tong)一管理。得益(yi)于監(jian)控(kong)寶(bao)和(he)Zabbix,這家中(zhong)國最大的第三(san)方獨立數(shu)據中(zhong)心實(shi)現(xian)了分布式系統(tong)(tong)高可用(yong)監(jian)控(kong)的內外(wai)兼修。