系統運維人員如何解決突發(fā)性故障?
任何計算機系統都有出現故障的時候,可能發(fā)生在測試階段,也可能發(fā)生在系統剛剛上線,還可能發(fā)生在已經穩(wěn)定運行很多年的系統上。這些系統出現故障所帶來的負面影響可大可小,小到一個終端的軟件無法使用,大到整個系統癱瘓……企業(yè)網絡想要固若金湯是IT部門夢寐以求的目標,作為系統運維人員,應該如何解決這些突發(fā)性故障問題?
記一次突發(fā)性故障
作為一名IT運維人員,工作中最常發(fā)生的系統方面的故障是很正常的一個現象,并且你永遠也不會知道下一次故障發(fā)生在什么時候,如果公司的系統運維已經做的比較成熟了,系統底層還比較強健,真正出問題的就都是系統之上的"應用",由于每種應用不同,所以并不是太好談哪一種應用會經常出問題。
不過,在前不久,這位技術達人的公司發(fā)生了一次較大故障,故障成因很簡單,就是由于空調物理機損壞,導致多臺服務器過熱,部分業(yè)務中斷。在更換新的空調之后問題得以解決。當然,在沒有更換之前,當時也采用了一些"笨辦法",比如使用大功率的風扇、開啟機房的排氣窗等等,暫時緩解了空調損壞造成的不良影響。
故障處理那些事兒
出現故障的同時必然會造成一些業(yè)務的中斷,可想而知,若是故障得不到及時的處理,那么公司網絡將會處在一個"癱瘓"的狀態(tài),這將是很可怕的事情,后果不堪設想。幸好九叔所在的運維團隊發(fā)現問題很及時,在機房中安裝有溫度報警系統,溫度達到閥值后會給相關運維人員發(fā)送短信。比較棘手的是,這次故障的根本原因是空調壞了,而不是常見的斷電、瞬間電流過大等情況。由于出問題的這個機房的服務器沒有線上業(yè)務,因此實際造成的損失并不大,但是影響不太好。
對于類似故障處理,大概遵循以下幾個大的方向。
1、收到報警或定期巡檢;
2、檢查是否誤報;
3、確認報警內容屬實進行相應處理;
4、檢查是否有預案,如有則按照預案處理,如無則盡快聯系廠商處理,同時對此事備案。
在處理問題環(huán)節(jié),如果在自身團隊無法處理的時候,會及時和廠商聯系,獲取更專業(yè)的支持。
故障后的思考與總結
俗話說,吃一塹長一智,出現故障不可怕, 可怕的是不能從故障中得到一些經驗教訓。九叔談到:"對于系統運維來說,不僅僅要關注軟件層面的問題以及運維,同時對于基礎IT建設也要有一定的了解,最起碼要知道出現問題應該找誰解決。隨著現階段技術的發(fā)展,我們不可能做到一個人對所有技術面面俱到,那么在無法解決問題的時候,如何找到解決問題的人,應該是每一個系統運維人員所必須要了解的。
空調故障的問題偶然性很強,但是依然有方法避免,那就是采取硬件服役到一定年限后更換,而不是等它徹底損壞后再更換。但是這種方法會帶來很多額外的費用支出,一般來說,在企業(yè)中推行這種方法需要IT部門有一個強有力的后盾去支持才能較好的達到預期效果。
還有一點是值得注意的,不管具體是什么故障,做好預案和備案最重要,以防止這種問題再次發(fā)生,或者再次發(fā)生后,也可以極為快速地去解決問題。
責任編輯:廖生玨
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業(yè)技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業(yè)
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報告 | 基于分類監(jiān)管與當量協同的碳市場框架設計方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉型與經濟發(fā)展并進
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業(yè)技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
2020年二季度福建省統調燃煤電廠節(jié)能減排信息披露
2020-07-21火電環(huán)保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規(guī)范法律問題研究(上)
2019-10-31能源替代規(guī)范法律 -
區(qū)域鏈結構對于數據中心有什么影響?這個影響是好是壞呢!