一、服務(wù)器維護計劃包括哪些內(nèi)容?
1.日常維護
?軟件更新:防病毒和軟件更新可以在任何進行。
?日志審核:濫用用戶,網(wǎng)站訪問者或僵尸程序可能會從合法用戶那里奪走資源,應(yīng)該盡快阻止。
?漏洞披露:軟件供應(yīng)商和渠道報告未經(jīng)修補的漏洞或攻擊。緊急修補將保護您的數(shù)據(jù)。
2.每周:檢查您的備份。如果備份不可用,您將只丟失一周的數(shù)據(jù)。
3.雙周:審核磁盤使用情況,包括老舊帳戶,未完成的備份,舊的臨時文件等會占用磁盤空間,從而導致磁盤空間問題。
4.每月一次:優(yōu)化數(shù)據(jù)庫。繁忙的數(shù)據(jù)庫在一個月內(nèi)可能產(chǎn)生3%-5%的碎片。
5.雙月:調(diào)整應(yīng)用程序。由于流量模式可能會在兩個月內(nèi)發(fā)生變化,因此未經(jīng)優(yōu)化的設(shè)置會影響速度。
6.24小時:監(jiān)控服務(wù)器運行狀況??梢酝ㄟ^負載高峰等早期跡象發(fā)現(xiàn)服務(wù)器故障。早期檢測可以防止完全停機。您需要檢測的內(nèi)容包括RAID健康、服務(wù)器溫度、負載平均值、網(wǎng)絡(luò)連接等。
二、如何構(gòu)建適合您的服務(wù)器的維護計劃
您可以根據(jù)服務(wù)器維護活動的目標,來細分服務(wù)器維護活動,然后找出實現(xiàn)該目標需要完成的工作。例如:
緊急響應(yīng),您需要知道您的服務(wù)器是否發(fā)生了不好的事情,您需要在出現(xiàn)問題時快速恢復服務(wù)。預(yù)防措施包括:主動審核和檢查系統(tǒng),以防止可能的服務(wù)降級或誤用。它可能包括:檢查,績效審計,資源使用審核等。保險措施包括:備份審核,鏡像故障轉(zhuǎn)移測試,高可用性測試。
三、制定應(yīng)急響應(yīng)計劃
可能出現(xiàn)故障的軟件和硬件組件類型在數(shù)據(jù)庫服務(wù)器,郵件服務(wù)器和Web或應(yīng)用程序服務(wù)器中會有所不同。因此,沒有一個適合所有人的列表,來列出服務(wù)器中需要監(jiān)控的所有故障。您需要考慮一下服務(wù)器可能出現(xiàn)故障的常見方式,以及如何及早發(fā)現(xiàn)它們。例如:Web服務(wù)器可能存在以下問題:
?容量錯誤(流量的突然增加可能耗盡內(nèi)存,并使磁盤過載,導致響應(yīng)遲緩);
?用戶濫用(在共享環(huán)境中,某些用戶可能會運行資源繁重的腳本,從而導致服務(wù)器負載);
?網(wǎng)絡(luò)攻擊(僵尸網(wǎng)絡(luò)通過在網(wǎng)站上執(zhí)行數(shù)千個同步查詢來完成大規(guī)模攻擊);
?Buggy腳本(編碼不良的腳本可能導致內(nèi)存泄漏或其他資源過度使用);
?網(wǎng)絡(luò)故障(Web服務(wù)器可能會丟失與后端數(shù)據(jù)庫服務(wù)器或其他應(yīng)用服務(wù)器的連接);
?硬件錯誤(從RAID降級到溫度問題,各種各樣的問題都可能導致服務(wù)器運行不良或凍結(jié));
?惡意軟件注入(黑客可能會使用未公開的漏洞將惡意軟件注入服務(wù)器);
?IP/網(wǎng)站聲譽問題(搜索引擎可以檢測到惡意軟件注入的網(wǎng)站從而降低網(wǎng)站權(quán)重)等等。
為預(yù)防這些故障,您需要每周7天,每天24小時監(jiān)控與這些問題相關(guān)的服務(wù)器參數(shù)。它可能包括負載均衡,內(nèi)存使用,I/O使用等。在列出適合您的服務(wù)器類型的所有這些方案和服務(wù)器參數(shù)后,列出您需要采取的操作以使服務(wù)重新聯(lián)機。緊急行動需要提前考慮,因為您沒有時間停下來思考服務(wù)何時失敗。
四、制定預(yù)防性維護計劃
預(yù)防性維護的目標是審核和調(diào)整服務(wù)器和服務(wù)的每個部分,以便它不會失敗。同樣,您需要檢查的內(nèi)容將根據(jù)您運行的服務(wù)器類型而有所不同。我們來看一個數(shù)據(jù)庫SQL服務(wù)器的例子。MySQL服務(wù)器維護計劃將包括:
?碎片整理(又名表優(yōu)化):數(shù)據(jù)庫中頻繁的“刪除”會使表格碎片化。每月優(yōu)化一次表,以防止性能問題和可用空間的損失。
?分析(優(yōu)化索引):MySQL使用索引快速查找所需的數(shù)據(jù)。大約每月運行一次“分析”以簡化索引,并使查詢執(zhí)行更快。
?完整性檢查:有時,由于數(shù)據(jù)庫崩潰或應(yīng)用程序錯誤,MySQL索引會丟失對數(shù)據(jù)集的。每周檢查數(shù)據(jù)庫完整性以防止查詢錯誤。
?磁盤運行狀況檢查:服務(wù)器日志中記錄了HDD或RAID錯誤。此類錯誤是即將發(fā)生故障的早期指示,您可以采取措施更換磁盤。
?空間使用檢查:您的數(shù)據(jù)庫需要增長空間,進行備份和進行大型事務(wù)。每月檢查一次陳舊文件,臨時文件或舊備份。
?群集效率分析:數(shù)據(jù)庫群集應(yīng)有效地同步數(shù)據(jù),以防止查詢延遲和數(shù)據(jù)錯誤。早期檢測同步滯后可以防止代價高昂的數(shù)據(jù)庫崩潰。
?錯誤日志審核:如果MySQL服務(wù)器檢測到索引或表損壞,則會記錄錯誤。定期錯誤日志審核將防止意外停機。
?慢查詢分析:MySQL會將執(zhí)行效果不佳的查詢記錄到文件中。對這些查詢和服務(wù)器調(diào)整的每周分析可能會阻止性能日志。
?服務(wù)器速度審計:每月速度測試可以顯示MySQL服務(wù)器執(zhí)行查詢的效率。通過及早發(fā)現(xiàn)和修復瓶頸,您可以避免性能問題。
五、規(guī)劃災(zāi)難恢復
您的服務(wù)器硬盤都有一定的壽命。有些數(shù)據(jù)可能會丟失。那時的重要問題是,“你多久能恢復?”如果您已準備好應(yīng)對這種可能性,那么它可能只需1分鐘。