中國電力科學(xué)研究院劉鳳魁等.基于改進(jìn)快速密度峰值聚類算法的電力大數(shù)據(jù)異常值檢測
劉鳳魁, 鄧春宇, 王曉蓉, 等. 基于改進(jìn)快速密度峰值聚類算法的電力大數(shù)據(jù)異常值檢測[J]. ,2017,15(6): 36-41.
LIU Feng-kui, DENG Chun-yu,WANG Xiao-rong, et al. Outlier Detection of Smart Grid Big Data Based on Improved Fast Search and Find Density Peaks Clustering Algorithm[J]. Electric Power Information and Communication Technology, 2017,15(6):36-41.
第一作者 劉鳳魁
劉鳳魁(1990-),女,河北石家莊人,工學(xué)碩士,研究方向?yàn)殡娏Υ髷?shù)據(jù)分析。作者所在的中國電科院大數(shù)據(jù)研究團(tuán)隊(duì)成立于2014年初,采用跨專業(yè)聯(lián)合攻關(guān)模式,以電力大數(shù)據(jù)應(yīng)用為核心、面向價(jià)值實(shí)現(xiàn),從數(shù)據(jù)獲取與管理、大數(shù)據(jù)處理技術(shù)、分析挖掘算法、電力業(yè)務(wù)大數(shù)據(jù)應(yīng)用四個(gè)方面重點(diǎn)突破,打造核心競爭力。
研究背景
由于數(shù)據(jù)來源不同、統(tǒng)計(jì)口徑不同、一線人員數(shù)據(jù)錄入、異常行為等問題以及缺乏相應(yīng)的數(shù)據(jù)質(zhì)量管控體系,常常會(huì)導(dǎo)致異常數(shù)據(jù)產(chǎn)生。異常數(shù)據(jù)包含了系統(tǒng)異常情況出現(xiàn)的相關(guān)信息,因此異常數(shù)據(jù)背后潛藏著巨大的研究價(jià)值,可為實(shí)際應(yīng)用提供幫助。在電力行業(yè),異常值檢測可用于電網(wǎng)故障檢測、設(shè)備故障檢測、用電異常檢測等領(lǐng)域。
快速密峰值聚類算法
快速密度峰值聚類算法是2014年 Rodriguez 等人發(fā)表在Sciences上的一篇論文中所提出的較新穎的聚類算法。該算法主要基于兩個(gè)設(shè)想:一是聚類中心被具有較低密度的鄰居包圍;二是聚類中心與其他具有較高密度的任何點(diǎn)的距離都相對較大。對于每個(gè)樣本點(diǎn),需要計(jì)算兩個(gè)參數(shù):
局部密度:
距離:
以局部密度為橫坐標(biāo),距離為縱坐標(biāo),繪制決策圖,同時(shí)具有較大局部密度和距離的點(diǎn)會(huì)被識(shí)別為聚類中心,然后將聚類中心的類標(biāo)依次傳遞給距離最近的點(diǎn)完成聚類過程。
基于KNN的快速密峰值異常值檢測算法
本文針對快速密度峰值聚類算法沒有考慮數(shù)據(jù)集局部特征且算法精度依賴于截?cái)嗑嚯xdc的不足,提出一種基于KNN 的快速密度峰值異常值檢測算法。該算法的核心是用KNN 思想計(jì)算樣本的局部密度:
KNN距離:
基于KNN 的局部密度和距離在計(jì)算時(shí)既考慮了數(shù)據(jù)集的全局特征,也考慮了數(shù)據(jù)集的局部特點(diǎn)。計(jì)算出樣本的之后,確定數(shù)據(jù)集中的異常值,數(shù)據(jù)集中局部密度較小、距離較大的點(diǎn)有可能是異常值,因?yàn)槠渲車泥従虞^少且與其他樣本的距離較大。本文認(rèn)為異常樣本滿足如下條件:
局部密度,且距離
時(shí),則該樣本點(diǎn)可以判定為異常值。其中,局部密度閾值
的定義為:
距離閾值 的定義為:
實(shí)驗(yàn)案例
案例所用數(shù)據(jù)為某省某臺(tái)交流10 kV 配電變壓器2014年1月1日至2014年4月30日共120天的日負(fù)荷數(shù)據(jù),其采集頻率為1 h,因此日負(fù)荷曲線為24個(gè)數(shù)據(jù)點(diǎn)。日負(fù)荷數(shù)據(jù)標(biāo)準(zhǔn)化后的曲線如圖1所示,可以看出該變壓器的常規(guī)運(yùn)行模式,而有些曲線較大程度地偏離了正常運(yùn)行模式。
利用文中所提算法,對該數(shù)據(jù)集進(jìn)行異常值檢測,其異常值決策圖如圖2所示。
檢測出的異常值如圖3所示。
對比圖1與圖3可以看出,本文所提算法已將圖1中的少數(shù)不同于正常運(yùn)行模式的曲線檢測出來。在總共120條曲線中共篩出7條異常曲線。這7條曲線的時(shí)間分布見表1所列。2014年1月31日為中國農(nóng)歷新年,異常值所在的時(shí)間恰為春節(jié)假期,這也說明了所提算法能夠有效檢測出異常的用電模式。
解決的問題和意義
1)從異常值檢測角度改進(jìn)快速密度峰值聚類算法。利用KNN的思想重新定義局部密度和距離,改善了原始算法沒有考慮數(shù)據(jù)局部特點(diǎn)以及依賴于截?cái)嗑嚯x的不足,并定義了判斷異常值的規(guī)則,從異常值檢測角度對其進(jìn)行優(yōu)化。
2)異常值檢測有重要應(yīng)用價(jià)值。異常值檢測一方面可以作為數(shù)據(jù)預(yù)處理的一部分,解決因數(shù)據(jù)采集,或人工錄入等原因?qū)е碌臄?shù)據(jù)異常問題;另一方面可以進(jìn)行異常用電行為分析,支撐竊電嫌疑、風(fēng)險(xiǎn)預(yù)警等應(yīng)用。

- 相關(guān)閱讀
- 碳交易
- 節(jié)能環(huán)保
- 電力法律
- 電力金融
- 綠色電力證書
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè)
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報(bào)告 | 基于分類監(jiān)管與當(dāng)量協(xié)同的碳市場框架設(shè)計(jì)方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉(zhuǎn)型與經(jīng)濟(jì)發(fā)展并進(jìn)
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
2020年二季度福建省統(tǒng)調(diào)燃煤電廠節(jié)能減排信息披露
2020-07-21火電環(huán)保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規(guī)范法律問題研究(上)
2019-10-31能源替代規(guī)范法律 -
區(qū)域鏈結(jié)構(gòu)對于數(shù)據(jù)中心有什么影響?這個(gè)影響是好是壞呢!