監控工程萬建電子介紹監控知識:
1、監控方法
1.了解監控對象:我們要(yao)監控的(de)對象你是否了解呢?比如(ru)CPU到底(di)是如(ru)何工作的(de)?
2.性(xing)能基準指標:我們要(yao)監(jian)控(kong)這個東西的(de)(de)什么屬性(xing)?比如CPU的(de)(de)使用(yong)率(lv)、負載、用(yong)戶態、內(nei)核態、上下文切換。
3.報警閾值(zhi)定(ding)義:怎么樣(yang)才(cai)算是故(gu)障,要(yao)報警呢?比如CPU的負(fu)載到底多少算高,用戶態、內核態分別跑多少算高?
4.故(gu)障處理流程(cheng):收到了故(gu)障報(bao)警,那么我們(men)怎么處理呢?有什么更高效的處理流程(cheng)嗎?
2、監控核心
1.發(fa)(fa)現(xian)問題:當系統(tong)發(fa)(fa)生(sheng)故障報警,我(wo)們會(hui)收到故障報警的信(xin)息
2.定位(wei)問題:故(gu)障(zhang)郵件一(yi)般(ban)都(dou)會寫某(mou)某(mou)主機故(gu)障(zhang)、具(ju)體故(gu)障(zhang)的(de)內容(rong)(rong),我們(men)(men)需(xu)要(yao)對報警內容(rong)(rong)進行分(fen)析(xi)(xi),比如一(yi)臺服務器連(lian)不(bu)上:我們(men)(men)就需(xu)要(yao)考慮是(shi)網絡問題、還是(shi)負載太高導致(zhi)長時間無法連(lian)接,又或者某(mou)開(kai)發(fa)觸發(fa)了防火墻禁止的(de)相關策略等等,我們(men)(men)就需(xu)要(yao)去分(fen)析(xi)(xi)故(gu)障(zhang)具(ju)體原因。
3.解(jie)決問(wen)題:當然(ran)我們了解(jie)到故障的原因后,就需要(yao)通過故障解(jie)決的優先級去解(jie)決該故障。
4.總(zong)結問題:當我們解決完重大故障(zhang)(zhang)后,需要對(dui)故障(zhang)(zhang)原因以(yi)及防(fang)范進行總(zong)結歸納,避免以(yi)后重復出現。