加入收藏 設為首頁 聯(lián)系我們 歡迎光臨本網站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
企業(yè)數(shù)據中心定期計劃性的進行服務器維護可以防止發(fā)生大的問題,并保持一切正常運行。因此,數(shù)據中心管理人員們務必要為服務器的硬件和軟件執(zhí)行簡單的檢查騰出時間。
數(shù)據中心的服務器只是復雜一些的機器。與任何其他機器一樣,這些服務區(qū)也同樣需要定期性的維護,以便達到最佳性能。而通過簡單的維護程序則可減少發(fā)生嚴重故障的可能性,進而延長服務器的使用壽命。
即使具備現(xiàn)代服務器的性能和冗余功能特征,增加的工作負載整合和可靠性預期也可能對您的企業(yè)的業(yè)務造成損失。故而您數(shù)據中心的服務器維護清單應涵蓋相關的物理元素以及系統(tǒng)的關鍵配置。
堅持常規(guī)性例程
服務器管理員們經常忽視計劃性維護窗口。不要等到實際發(fā)生故障運行失敗時才來進行維護;請務必預留出足夠的時間用于日常的服務器預防性維護。
維護的頻率通常取決于設備的使用時長、數(shù)據中心的環(huán)境、所需要維護的服務器的數(shù)量等因素。例如,位于設備機柜中的舊設備較之被部署在一款HEPA過濾的,冷卻良好的數(shù)據中心中的新的服務器就需要更頻繁的檢查。企業(yè)組織可以根據供應商或第三方提供商的例程實施日常維護計劃;如果供應商的服務合同每四到六個月要求進行系統(tǒng)檢查,則按照該日程進行安排。
準備好一切
在您數(shù)據中心列出亟待維護檢查的服務器清單項目之前,請務必先行制定一套計劃。這包括檢查系統(tǒng)日志,看看是否需要更直接的把關注焦點放在任何錯誤或事件上。例如,如果系統(tǒng)日志顯示特定內存模塊的錯誤,您應該訂購一款替換的DIMM并將其安裝。同樣,如果有固件、操作系統(tǒng)或代理補丁/更新可用,請先在維護窗口之前先檢查,并打好這些補丁。
同樣,有必要針對系統(tǒng)脫機及其在稍后返回服務制定一套明確的計劃。在虛擬化出現(xiàn)之前,服務器及其之上的應用程序將需要停機以適應維護窗口——這通常會迫使IT人員需要在夜間或周末進行維護。虛擬化服務器支持工作負載的遷移,而沒有停機時間,因此您企業(yè)數(shù)據中心可以將應用程序遷移到其他服務器,并且任何時候當?shù)讓又鳈C系統(tǒng)在發(fā)生服務器維護時,它們都將保持可用狀態(tài)。在執(zhí)行維護服務之前,請務必清楚的知道虛擬機應該遷移到哪里,將虛擬機遷移到選定的系統(tǒng),并確保每項工作負載正在運行,然后再將服務器關閉進行維護。
此時,通?梢躁P閉服務器,并將其從機架或其他機箱中刪除卸下。
確保服務器可以“呼吸”
一旦服務器脫機,可以直觀地檢查其外部和內部的氣流路徑。清除可能會阻礙冷卻空氣流通的任何積聚的灰塵和其他碎屑雜物。
從外部空氣的入口和出口開始,然后深入系統(tǒng)機箱,查看CPU散熱器和風扇組件,內存模塊和所有冷卻散熱風扇葉片和風道通道。用干凈、且干燥的壓縮空氣適當清除靜電安全工作區(qū)上的灰塵或碎屑。不要在機架上清潔服務器。
除塵是一種老式的清潔過程,但這并不意味著其已經過時了。除塵器是一種絕熱材料,這使得這一過程更為重要,鑒于替代冷卻方案和ASHRAE建議數(shù)據中心適當提升數(shù)據中心的操作環(huán)境溫度;覊m和其他氣流障礙物將導致服務器會消耗更多的能量,甚至會引起原來可避免的過早的組件故障。
檢查本地硬盤
許多服務器依靠內部硬盤進行引導、工作負載啟動和存儲,用戶數(shù)據和其他功能。磁盤介質問題嚴重損害了工作負載的性能和穩(wěn)定性,往往導致磁盤過早出現(xiàn)故障失效。
磁介質是不完美的;常見的問題包括壞扇區(qū)和碎片。在保持數(shù)據完整性方面,RAID有了很大的進步,但是較小的1U機架式服務器不能提供足夠的物理空間來部署磁盤陣列。使用諸如CHKDSK(檢查磁盤)等實用程序等工具來驗證磁盤的完整性,并嘗試恢復其上的任何壞扇區(qū)。 Windows Server 2012的更新版本的CHKDSK可以快速分析和修復文件系統(tǒng)結構中的磁盤問題。
磁盤碎片不會消失,只要具備NTFS和文件分配表或FAT,文件系統(tǒng)使用磁盤空間首先可用的集群。碎片可能會降低減緩服務器的磁盤的運行,并導致故障。Windows Server 2012下的Optimize-Volume等實用程序會將每個文件的集群連續(xù)排列在磁盤上。
閱讀事件日志的附屬細則
服務器在事件日志中記錄了大量信息,特別是有關問題的詳細信息。如若沒有仔細檢查系統(tǒng)、惡意軟件和其他事件日志,那么,服務器維護檢查清單便是不完整的。當然,關鍵系統(tǒng)問題應該會第一時間引發(fā)IT管理員和技術人員的關注,但從無數(shù)的小事件的積累中可能會發(fā)現(xiàn)長期而嚴重的問題。
請檢查報告設置,并驗證恰當?shù)木瘓蠛途瘓蠼邮照。例如,如果某位技術人員離開了服務器管理團隊,則需要更新服務器的報告系統(tǒng)。仔細檢查聯(lián)系方式;如果錯誤發(fā)生在工作時間之外,則僅僅只向技術人員的企業(yè)電子郵件地址發(fā)送發(fā)生嚴重錯誤的報告可能是完全不夠的。
積極主動的跟蹤日志數(shù)據。當通過對日志的檢查發(fā)現(xiàn)長期或經常性的問題時,積極的調查可以在問題升級之前解決問題。例如,如果服務器的日志報告內存模塊中存在可恢復的錯誤,其將不會觸發(fā)關鍵警報。但是,重復的實例會顯示模塊出現(xiàn)問題,IT人員可以執(zhí)行更詳細的診斷來識別即將發(fā)生的故障。
為打補丁和更新騰出時間
服務器的軟件堆棧——BIOS,操作系統(tǒng),虛擬機管理程序,驅動程序,應用程序,支持工具——都必須進行互動和協(xié)同工作。不幸的是,軟件代碼很少是完美無缺的或無問題的,所以這些軟件經常需要被修補或更新,以修復錯誤,提高安全性,簡化互操作性和提高性能。
沒有任何一款生產軟件能夠自動更新。管理員應首先確定是否需要打補丁或更新升級,然后再進行徹底的評估和更改測試。如果更新解決的是您的服務器原本沒有的問題,那么為什么要冒著創(chuàng)造出其他問題的風險呢?
軟件開發(fā)人員不可能測試硬件和軟件的每個潛在組合,因此修補程序和更新可能會導致比您的特定服務器或軟件堆棧修復更多的問題。例如,監(jiān)控代理補丁可能會導致重要工作負載的性能問題,因為新代理會占用比預期更多的帶寬。
轉向 DevOps,借助更小的和更頻繁的更新會加劇潛在的問題。在部署之前,仍然需要在實驗室中測試任何補丁或更新。并且始終確保可以撤銷更改,并在必要時恢復原始軟件配置。
核實并記錄任何更改
在諸如硬件,軟件,系統(tǒng)配置更改的維護窗口中,服務器可能會發(fā)生很多事情。完成服務器維護清單后,IT員工必須驗證和記錄任何新的系統(tǒng)狀態(tài)。例如,更改了網絡適配器,添加或更換了DIMM,更新了操作系統(tǒng)和許多其他操作可能會改變系統(tǒng)的配置。依賴于系統(tǒng)配置管理工具的企業(yè)組織可能需要更新或“發(fā)現(xiàn)”更改——在系統(tǒng)允許恢復使用之前將這些更改記錄到配置管理數(shù)據庫。IT人員可能需要更新任何強制或期望的狀態(tài)配置狀態(tài),以允許更改。
還要驗證系統(tǒng)安全狀態(tài),如防火墻設置、反惡意軟件版本或掃描頻率和入侵檢測/預防(IDS / IPS)的設置。安全檢查可以幫助確保對系統(tǒng)軟件的更改不會無意中暴露任何可能在先前配置中已關閉的攻擊面。
最后,一旦服務器重新聯(lián)機,不要忘記更新任何系統(tǒng)備份或災難恢復(DR)內容。驗證服務器的備份/ DR位置或頻率是否保持不變,除非這些相關設置需要特別調整以反映服務器的變化角色。