提到服務(wù)器宕機(jī)檢測,大家會想到,宕機(jī)能夠很快知道,這個有什么可做的?實際上,很多時候服務(wù)器宕機(jī),并不總是被及時感知。服務(wù)器宕機(jī),ping或者ssh這是簡單的做法,但真正的工程實踐,沒這么簡單。
想要獲知服務(wù)器宕機(jī)怎么辦?可以通過服務(wù)器宕機(jī)實時檢測:
1)發(fā)現(xiàn)宕機(jī)
2)提前告警。
3)告知宕機(jī)的詳細(xì)原因,如硬件故障,內(nèi)核bug,網(wǎng)絡(luò)異常等等。
4)自動報修生成工單。
我們知道,進(jìn)行全網(wǎng)物理機(jī)宕機(jī)準(zhǔn)確探測與實時發(fā)現(xiàn),可以給宕機(jī)分析提供現(xiàn)場,獲取現(xiàn)場的日志。也可以盡早將宕機(jī)數(shù)據(jù)推送給業(yè)務(wù)或運(yùn)營感知并處理,如自動報修,業(yè)務(wù)遷移等,從而盡可能將業(yè)務(wù)影響降到。
更重要的是,準(zhǔn)確的宕機(jī)發(fā)現(xiàn)數(shù)據(jù)可以為宕機(jī)預(yù)測提供準(zhǔn)確的標(biāo)注數(shù)據(jù),為后期宕機(jī)預(yù)測提供數(shù)據(jù)基礎(chǔ),并且這些數(shù)據(jù)提供給運(yùn)營部門進(jìn)行整體分析,提升處理效率。