信息系統自動化運維平臺的研究與應用
0 引言
隨著電力企業信息系統的不斷增加與完善,信息化工作重心由建設階段逐漸向運行維護階段過渡,信息系統運維與安全壓力日益顯現。但是,在傳統的運維方式下信息系統運維工作主要由人工完成,部分相關運維工具由于功能分散、實用性低等問題,很難實現運維自動化處理,對系統配置也不能達到及時、準確、閉環的管理要求。尤其是對于信息系統客戶密集型的呼叫行業,信息系統運維工作面臨設備多、系統規模大、實時性要求高、主業運維人員和運維工具少等現實情況,需投入大量的人力進行重復、繁雜的運維工作。
針對以上問題,本文提出了從數據收集自動化、維護處置自動化、輔助決策自動化等方面開展自動化運維的工作思路,以提升運維工作的效率與服務質量。
1 數據收集自動化
對于信息系統運維而言,如何有效處理和運用運維數據已成為運維工作的重要內容。早期信息運維綜合監管系統(Information Management System, IMS)通過手工錄入的方式進行數據的電子化管理,但隨著運維工作的不斷發展,數據來源不斷增多,如手工填寫的紙質數據、監控系統自動采集的數據、分析統計數據等,使得要做好自動化運維工作就必須要先做好運維數據管理工作[1]。本文提出的數據收集自動化方案主要包括運維監控自動化、巡檢自動化及維護事件處理自動化。
1.1 功能架構
1)運維監控自動化。充分利用已部署的動環監控、BTIM、呼叫平臺預警監控、運維審計等輔助支撐系統,對包括機房基礎環境、網絡安全設備、數據庫中間件、主機服務器、應用服務等進行全面監控,重點實現監控數據存儲及預警機制集中存儲,利用安全接入平臺、隔離裝置實現不同網絡區域監控數據的互聯互通[2]。為實現運維自動化,需對現有監控系統的數據進行集中存儲,建立安全的網絡互聯環境和統一預警機制,并實現對監控數據的二次利用和分析。
2)巡檢自動化。現階段電力企業信息系統巡檢工作主要通過紙質巡檢表單進行日常及深度巡檢,且巡檢數據沒有得到有效分析和利用。針對這種情況,應開展巡檢無紙化、移動化及數據電子化工作,通過移動終端實現巡檢,并對巡檢數據進行電子化存儲,提高巡檢質量,降低資源消耗,充分利用巡檢數據進行分析,為故障預判做好數據積累。
3)維護事件提醒自動化。目前電力行業信息系統維護事件提醒主要利用各類監控系統通過聲光報警的方式在各自系統頁面給出,值班人員確認后短信通知相關人員。為降低人工勞動強度,應建立統一管理平臺對維護事件進行統一提醒,并以郵件、短信、電話等方式自動發送通知,減少人為干預。
1.2 關鍵技術
運維數據處置包括數據采集、匯總、存儲等環節,由于電力系統各單位運維工作信息化水平不一,數據來源不同,因此運維數據必須遵循多源獨立收集、格式統一整理、數據集中存儲的處置思路。數據處置結構如
數據采集的關注點是通過服務收集各類格式數據,并進行電子化存儲,因此針對不同的數據存儲場景應采用可擴展的、標準的數據收集組件,通過數據收集組件將各個監控系統不同類型數據進行統一匯總,采用以下思路進行數據收集自動化建設工作。
通過商業軟件和定制開發的方式對運維范圍內信息系統進行監控,各監控系統均有一套數據存儲系統[3]。為實現數據的統一存儲和綜合利用,需具備一套數據收集組件進行存儲數據的格式轉換、抽取,同時該組件支持抽取規則定制,可對抽取數據的數據量、數據種類、轉換格式、源端、目標端進行復制。數據收集組件如
由于存在監控系統未完全覆蓋所有應用、服務和設備的情況,應提供數據采集Agent對專用設備和服務進行監控及數據采集,提供移動巡檢應用,實現巡檢工作的無紙化和移動化,利用現有安全接入平臺進行移動終端接入,確保應用安全可靠。
在運維數據全采集后,形成的數據將會是海量數據,數據庫必須具備高可擴展性、高并發性、高可用性等特點,傳統數據庫存在性能瓶頸,不能有效支撐對運維數據的集中分析和運算,因此需采用分布式數據庫[4]。分布式模式如
運維事件提醒主要是告警提醒,以聲光、郵件、短信、電話等方式自動發送,減少人為干預。部分系統自帶通知功能,但存在誤報情況,且發送內容不能集中管理,需通過人工編制發送短信。因此,本文通過開發運維事件處理集中提醒處置功能,可對告警事件進行集中管理,創建標準事件庫,實現通知內容的自動生成功能[5]。集中處置流程如
2 維護處置自動化
維護處置自動化主要包括現場事件處置自動化、配置變更自動化監測和故障診斷自動化,可以節省大量人力成本。
2.1 現場事件處置自動化
現有系統多采用B/S結構,缺少靈活、強大的自動信息采集策略,不能適應新技術發展的需求,且與大部分應用系統存在沖突,運行維護容易導致服務中斷,影響服務的持續開展;缺少可視化運維支撐手段,不利于服務受理人員第一時間分析處理問題;通過電話溝通事件情況,導致溝通成本高,不能滿足對實時性的要求。目前,通過桌面異常上報工具進行問題的收集及處理,可有效推動桌面異常處置的效率和水平,但存在對桌面工程師個人能力水平依賴性較高的問題。針對以上情況,建立現場異常處置知識庫并與現有工具及應用進行有效結合,通過知識庫自動關聯給出問題的解決方案,可減少對人員素質的過度依賴,解決系統處置標準不一致的問題[6]。現場事件自動化處置過程如
現場事件處置自動化充分體現了現場運維工作的建設思路,主要涉及座席端、運維端及數據服務3個部分。現場處置模塊劃分如
現場處置模塊涉及的主要功能如下。
1)座席端的設計充分考慮了異常事件特點,可自動完成軟電話日志、系統日志、網絡配置等基礎環境信息收集,并進行自適應截屏,將座席人員人工工作量減少到最小。
2)在上傳異常事件后,可在數據服務端自動關聯展示座席人員組織、空間、業務關系等信息,自動分析歷史事件,提高了運維人員信息收集的效率。
3)運維人員通過運維端可多維度查詢異常事件,快速瀏覽截圖、日志等信息,為準確定位問題、快速恢復服務提供有力支撐。
2.2 配置變更自動化監測
目前電網企業信息系統運維配置管理工作主要通過文檔進行臺賬及配置信息管理,配置管理需要過多的人工干預,無法達到及時、準確及閉環的管理要求[7]。針對這種情況,可建立配置庫管理應用,與涉及變更的檢修、上下線等運維流程進行關聯,同時通過代理應用實現對各類配置對象的實時監測機制,自動對配置庫的變化進行監控、記錄與管理。
要實現配置管理自動化,必須建立配置管理數據庫(Configuration Management Database,CMDB),配置管理的粒度越細,管理難度越大[8]。要達到配置管理自動化的目標,就需建立配置管理模型,即配置管理包括哪些配置項及配置項之間的關系。配置項應包括:聯系人、機房、機柜、電源、存儲、主機、操作系統、授權、個人電腦、打印機、網絡接口、網絡設備、安全設備等。要做到配置管理自動化,首先要自動偵測IP地址范圍內哪些IP需要激活,定義設備類型及依賴關系和影響范圍;配置連接權限、連接協議和關鍵配置信息,實現關鍵配置(如文件、參數、程序版本)[9]定義掃描規則,定期掃描配置信息,對變更配置自動生成待處理任務,并進行確認處理;同時應支持圖形可視化影響范圍和依賴關系展示,通過查詢歷史版本,實現差異對比分析。
2.3 故障診斷自動化
目前大部分企業在故障診斷自動化方面無應用系統支撐,為實現故障診斷自動、及時、準確的目標,通過建立一套診斷處置策略,診斷代理自動分布式地收集日志信息,利用診斷策略對收集的信息進行集中分析,自動給出故障診斷情況及處置方式[9]。
故障診斷一般依賴于日志信息,一般通過日志可直觀判斷異常發生的原因。因此要實現故障診斷,首先要實現設備關鍵日志的收集、分析和存儲,并通過異常代碼自動關聯處置方案,利用Agent執行處置腳本,實現異常的自動處置和診斷[10]。
3 輔助決策自動化
通過人工效能分析、運行健康分析、運行方式分析等方式進行輔助決策支撐,可改善目前需投入大量人力進行運行日報、周報、月報及異常分析報告等運維分析工作的現狀。通過建立一套報告定制系統,可定制規則,與各監控系統進行整合,自動關聯運維數據,自動生成相關運行報告,最終實現提高報告質量的目標[11-12]。
輔助決策自動化功能在運維數據集中管理和配置數據正確、完
責任編輯:售電衡衡
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市