引入“微運維”構建一體化信息監控管理平臺
0 引言
國網客服中心(以下簡稱中心)是國家電網公司集中供電服務業務執行單位和總部營銷決策的支撐機構,負責95598服務的集中建設與運營,服務地域范圍覆蓋26個省(直轄市、自治區),是世界上服務人工最多、規模最大的電力客戶服務中心,下設南、北2個分中心[1]。中心兼具呼叫中心及電力行業的屬性,是技術密集型、知識密集型客服中心,具有業務連續性要求高、社會影響大、話務量高等特點,因此,安全可靠的信息系統是中心對外提供優質服務的關鍵支撐。中心在全國電力行業首次設計了95598一體化服務平臺信息系統群結構,采用“雙基地、雙平臺、雙局向、雙鏈路”模式,為保證7×24 h服務的連續性奠定基礎。
此外,中心信息系統運維以“安調運檢”體系為基礎,結合中心實際,加大對座席現場的支撐力度,加強運行監控及故障恢復效率。中心信息系統運維與國家電網公司系統內其他單位面臨同樣的困難[2-3],一是軟硬件種類繁多、技術接口繁雜;二是監控手段不統一、監控工具分散,無法“集中監控、集中管理”,影響系統監控與處置效率。中心借鑒“微服務”應用拆分、敏捷部署及運維集約化理念[4-5],創新性提出“微運維”概念。每一個“微運維”關注一項個性化軟件或硬件的自動化運維,代表著一個小的運維能力。同時,將“微運維”與傳統的監控資源有機結合,打造了運維一體化管理平臺,有助于提升運維質量和運維效率[6-8]。
1 信息系統運維現狀及存在的問題
1.1 信息系統運維現狀
95598呼叫平臺系統承載南方分中心服務的14家?。ㄊ校┕镜?5598電話業務,是國家電網公司提供優質服務的重要入口。
95598呼叫平臺系統運維工作涵蓋較廣,包括機房環境、網絡安全、主機存儲、數據庫、中間件、呼叫平臺服務等。涉及的軟硬件種類繁多、品牌繁雜、數量龐大且軟硬件之間技術接口不統一,如數據庫有Oracle、MySQL、SQLserver,主機硬件有小機、PC、刀片、工控機、專用服務器等,平臺硬件有OXE、SBC,平臺軟件有軟電話、genesys平臺軟件、錄音系統、語音分析、報表集成服務等。
信息系統運維的日常工作是監控異常并進行快速處置恢復[9-11]。目前主要采用傳統成熟的監控工具,如通過動環監控系統監控機房溫濕度、電量電壓、UPS等信息,通過北塔、hostmonitor監控整個分中心網絡運行狀況,通過中心統一開發的核心監控與預警系統監控分中心各部門話務和業務情況及呼叫平臺核心組件的運行狀態[12-14]。信息系統運維工作基于以上分散的監控工具,缺乏一個一體化監控平臺,進行全方面、全覆蓋的“自動監控、主動運維”。呼叫平臺系統個性化軟硬件較多,技術接口不統一,無法做到采用統一的技術規范實現所有的系統“一鍵式自動運維”。此外,因中心業務不斷拓展,信息系統開發建設速度快也需要不斷開發出新的運維工具[15-17]。在異常處置方面,主要以人工處置為主,處置效果很大程度上依賴于處理人的專業技能。
1.2 存在的問題
在目前的運維工作中,監控處置動作不能集約式一體化管理,給運維工作帶來很多難題。
1)造成了時間、人員、設備等資源的浪費。個別軟硬件因技術接口不統一,需要獨立開發出個性化的自動運維工具,造成設備資源的重復投入;運維工具分散、繁多,可能分散到各個運維專業組使用,容易造成人員冗余及不合理利用,同時兼顧多個監控工具也會造成時間和精力的浪費。
2)增加了系統風險。人工處置會因人員誤操作導致不可預估的風險,處置效果依賴于某個運維人員的技能,若該人員離職,則會造成核心技術與重要經驗的流失,加劇了系統風險。
2 集約一體化信息監控管理平臺的構建
2.1 “微運維”的提出和典型“微運維”工具
微服務架構在系統開發中得到越來越多的關注,可將一個大型復雜的應用和服務分解成更小的、松散耦合的一個個微服務,每個微服務代表一個小的業務能力,便于軟件應用的升級和擴展。將微服務這種應用拆分、敏捷部署的理念引入到信息系統運維工作中,提出了“微運維”的概念,針對個別無法實現統一監控的軟硬件,獨立開發個性化的微運維工具,實現自動監控、自動處置。國網客服中心南方分中心在運維過程中,針對呼叫平臺重要組件及服務的監控處置開發了“微運維”工具。
2.1.1 Weblogic中間件的自動監控與處置
Weblogic是基于JavaEE架構的中間件,其中部署了95598呼叫平臺的重要集成服務。前期Weblogic故障的發現與處置主要依賴人工完成,Weblogic中間件在宕掉或假死的情況下靠人工手動拉起,拉起時間過長,存在操作不規范的風險,影響業務正常運營。針對此問題,南方分中心組織開發了Weblogic中間件的自動監控與處置“微運維”工具。
該工具架構如
2.1.2 CTI一體化重啟
計算機電話集成(Computer Telecommunication Integration,CTI)服務能自動處理來電中的信令信息,并建立電話連接,是95598呼叫平臺的重要服務。CTI服務運維工作一直是困擾南方分中心的難題,CTI服務的啟動、停止有嚴格的順序要求,且CTI服務較多,人為操作風險較大。為解決該問題,南方分中心開發了CTI一體化重啟“微運維”工具,架構如
這一工具將常態重復的工作進行自動化,由多人操作、交互確認變成了一人操作、內部自校驗,降低了時間與人力成本;把多個服務之間邏輯關系的處理進行固化,降低了操作風險;避免了業務主機啟停順序紊亂的系統風險。使用CTI一體化重啟工具前后,時間及人力成本的變化見
2.2 一體化管理平臺的構建
將針對個性化軟硬件運自動維、代表不同運維能力的“微運維”工具與傳統的監控資源結合,構建運維一體化管理平臺,實現了集中監控、集中管理,彌補了由于接口規范不統一帶來的分散式繁雜運維,有助于提升運維質量和運維效率。一體化監控管理平臺架構如
1)技術支撐:一體化管理平臺包含傳統運維工具和“微運維”工具2個模塊。對于傳統的運維監控手段,使用成熟的運維監控平臺或者傳統技術開發實現,通過通用技術接口納入一體化監控管理平臺;對于“微運維”工具,采用與之對應的接口技術,實現“微運維”平臺/工具的開發,通過專門的技術接口納入一體化監控管理平臺。
2)平臺支撐:包含傳統成熟的運維工具/平臺和因技術接口個性化、傳統成熟運維工具無法統一支撐的“微運維”工具/平臺。隨著業務范圍的擴大,信息系統不斷開發建設,支撐對應系統自動監控運維的“微運維”工具可基于該一體化監控管理平臺不斷升級擴展。
3)功能支撐:①集中監控與告警:一體化監控管理平臺融合了“微運維“平臺/工具與傳統運維平臺/工具,進行集中監控與告警,實現單個或多個故障的敏捷發現;②集中調配:一體化監控平臺可快速發現單個或集中故障,能夠通過集中調配平臺去調度組織人員、技術、設備及時到位,實現快速處置;③進度管理:通過對故障以及處置進度的管控,實現進程控制、影響控制并督促監督處置過程,可對故障信息傳遞、影響范圍確定、處置進度跟蹤進行高效管理;④報表分析:通過故障相關數據、處置相關信息進行多維度的分析(時間、范圍、人員、效果、風險等)與總結,有助于杜絕故障發生、提高處置效率。
一體化監控管理平臺的構建,實現了高效管控、敏捷運維,較好地解決了軟硬件種類繁多、接口規范不統一的監控難題,且具有可擴展性,能夠適應不斷上線的、新系統的運維工作,大大提高運維效率,有力保障業務的正常運轉。
3 結語
為滿足不同接口規范的軟硬件、不斷開發建設的系統的監控需求,通過借鑒微服務應用拆分、敏捷部署的理念,文中引入了微運維的思想,提出了構建一體化監控管理平臺的方案,將一個個個性化的微運維工具融入到一體化運維管理平臺上,可有效解決運維軟硬件數量龐大、運維工具繁多的問題,保證信息系統的安全穩定運行。
責任編輯:售電衡衡
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市