性能監測工具在信息系統診斷調優中的應用
0 引言
國家電網公司信息化建設在經歷了高速發展階段后,業務需求呈井噴式增長,業務融合、數據共享等高端集成應用呈跨越式發展,信息系統部署模式、運行模式日益復雜[1-2]。同時,隨著國家電網公司“兩個轉變”的不斷深入,要求業務響應更快速、服務更優質,對信息系統運維工作提出了更高的要求[3-4]。
目前信息系統運維工具主要面向基礎架構層面,點陣式管理模式又造成運維孤島,缺乏端到端的應用層監控手段[5]。業務系統關聯日益復雜,一旦在應用層出現性能下降和不可用問題,即面臨問題現場難以復現,需要效率低下的手工排查,系統管理人員運維壓力持續增長,且無法高效保障信息系統的用戶體驗[6]。
為解決上述問題,運維單位將性能監測工具引入信息系統高級診斷調優工作中[7-10],針對信息系統的硬件環境、操作系統、數據庫、應用中間件、集成服務、系統架構、典型業務等運行指標進行深度診斷,對直接決定用戶體驗的應用層級進行代碼級的深度監測[11-14],實現診斷工作的自動化,輔助運維人員快速定位故障,優化系統性能,提高工作效率。
1 性能監測工具核心原理、關鍵功能模塊及性能指標
1.1 核心原理
性能監測工具在信息系統高級診斷調優過程中,通過在應用服務器(中間件)中植入Java Agent探針(基于JDK 提供的Instrumentation機制),在應用代碼類文件被加載時,通過字節碼技術,動態地對Framework、數據庫、NoSQL、Web Service、組件等實施監控。
用戶在通過終端瀏覽器訪問應用頁面時,頁面監控模塊即開始頁面用戶體驗相關的性能監控。用戶訪問請求進入數據中心后,由應用監控模塊對請求流經的Web服務器、應用服務器、關系型數據庫、非關系型數據庫等組件進行代碼級性能監控,從而獲得代碼執行效率、數據庫調用效率、應用接口調用效率,構建出業務層的數據流向拓撲圖,并基于拓撲實現代碼級的信息系統性能和可用性監控,實時將監測數據展現在可視化監控模塊上。性能監測工具的實現機制如
圖1 性能監測工具的實現機制Fig.1 Implementation mechanism diagram of performance monitoring tool
運維人員依靠性能監測工具提供的網絡拓撲圖,實現端到端的完整監控,快速定位整個業務調用鏈中存在的問題,及時解決問題,并結合業界標準對各信息系統性能進行持續的客觀評價。
1.2 關鍵功能模塊
性能監測工具的關鍵功能模塊主要包括應用拓撲分析、Web應用過程分析、數據庫性能分析、錯誤分析、外部應用分析等。
1.2.1 應用拓撲分析模塊
性能監測工具構建業務層的數據流向拓撲圖,并基于拓撲實現代碼級的業務系統性能和可用性監控。該模塊不僅可展示應用與應用、應用與服務之間的調用關系,而且可以顯示應用與應用間的性能數據以及當前應用的語言環境。將光標懸停到該應用或被調用其他應用的圖標上時,會彈框顯示相關的性能數據,包括調用服務數、吞吐率、響應時間、錯誤率等相關數據。
1.2.2 Web應用過程分析模塊
在該模塊可查詢所選應用下事務的整體性能和具體事務的性能。當事務的響應時間大于設置的閾值時,可以通過慢事務追蹤列表對該事務進行詳細追蹤。通過查看慢事務追蹤詳情,可獲取該事務所屬應用、慢追蹤發生的時間、響應時間、請求URL、線程名稱、請求參數以及該事務中的代碼處理耗時信息。
1.2.3 數據庫性能分析模塊
數據庫分析模塊包括使用SQL的關系型數據庫分析以及非關系型數據庫NoSQL分析,用來以數據庫語句訪問的維度來查看應用性能數據。運維人員可查看各應用數據庫語句的整體性能,也可查看具體數據庫語句的性能。當數據庫語句的響應時間大于設置的閾值時,可對數據庫語句進行詳細追蹤。通過查看慢數據庫操作詳細信息,可獲取操作發生時間、總耗時長、調用次數、完整的數據庫語句信息及Trace信息。
1.2.4 錯誤分析模塊
錯誤分析模塊用于分析當前應用或應用實例中發生的錯誤或異常情況。分析結果包括錯誤類型、錯誤率、錯誤發生次數、Trace信息等。
1.2.5 外部應用分析模塊
外部應用指應用通過HTTP、Thrift、Dubbo或Web Service方式調用外部應用提供的服務,該模塊用于分析應用使用外部服務的相關性能。
1.3 性能指標
性能監測工具各模塊分析結果以圖表形式展示在性能監測平臺中,涉及到的主要性能指標及含義如下。
1)響應時間:指應用系統(包括應用服務器、數據庫、事務、外部應用等)從收到請求到返回響應的時間。
2)請求阻塞時間:請求到達前端服務器及應用服務器收到請求的時間。
3)代碼執行時間:指純粹用于執行當前函數代碼的時間。
4)Apdex:為用戶滿意度指標,把最終用戶體驗和應用性能量化為一個0或1的數值,反映系統性能和可用性狀況。1表示所有用戶都滿意,0表示沒有滿意的用戶。
5)吞吐率:指單位時間內應用、事務及外部應用等模塊收到的請求次數。
6)錯誤率:指應用、事務、數據庫及外部應用等模塊在某個統計周期內發生錯誤的次數與總請求(或調用/訪問)次數的比值。
7)墻鐘時間比:該數值反映Web應用過程的繁忙程度和對CPU資源的消耗程度,比值越高表示消耗的資源越多。
2 性能監測工具用于高級診斷及調優實例分析
以部署性能監測工具的某信息系統2017年9月的性能監測結果為實例進行詳細分析。
圖2 某系統應用拓撲圖Fig.2 Application topology of a system
系統Web應用過程分析結果如
圖3 系統最耗時Web應用過程堆疊Fig.3 The stack diagram of most time-consuming Web application process
圖4 系統響應時間和吞吐率Fig.4 Response time and throughput diagram
圖5 最耗時SQL操作堆疊Fig.5 The most time-consuming SQL operation stack diagram
圖6 數據庫吞吐率堆疊Fig.6 Database throughput stack diagram
在錯誤分析模塊中,應用錯誤率如
圖7 應用錯誤率Fig.7 Application error rate diagram
圖8 錯誤列表Fig.8 Application error rate diagram
外部應用分析結果展示了應用系統平均響應時間及吞吐率(見
圖9 平均響應時間Fig.9 Average response time
圖10 系統9月份的Apdex值曲線Fig.10 The Apdex value curve of the system in September
3 應用效果評價及總結
目前,開展性能監測工具部署試點實施的28套業務系統運行正常,性能監測平臺運行穩定,性能數據抽取準確及時。在6個月的部署實施期內,28套系統共部署探針227個,發現問題144個。其中,Web應用過程問題最多,其次為系統錯誤,各問題占比如
圖11 系統各問題占比Fig.11 Proportion of problems in the system
在持續6個月的監測過程中,平臺收集的性能數據覆蓋了業務的高峰期和低谷期。系統在業務高峰期時的性能數據更能反映出系統開發存在的問題,監測結果充分驗證了性能監測工具的兼容性和穩定性。在階段性巡檢和消缺工作中,性能監測工具可以為運維和開發單位提供故障和優化點的定位分析建議,切實解決系統性能問題,并形成系統化的使用建議文檔,為后期推廣提供實踐經驗支持。
4 結語
目前,性能監測工具已在國家電網公司的部分業務系統中完成部署與應用,自動構建了業務級和應用級的全景拓撲圖,實現了應用層的持續性監控能力,輔助運維人員掌握當前業務系統運行的整體情況。后期,可基于此性能數據集成平臺將更多的一級部署系統和二級部署系統納入監測范圍,形成統一的應用系統性能數據集成平臺,自動構建業務級和應用級的全景拓撲圖,實現應用層的持續性監控,輔助運維人員掌握業務系統運行的整體情況[15-16]。另外,可考慮基于性能監測平臺數據,與現有評價數據相結合,建立信息系統質量評價指標和評價體系,促進運維單位與研發單位間良性互動,不斷提升國家電網公司的信息化應用水平。

責任編輯:售電衡衡
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市