電力消費(fèi)大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺(tái)
5.2.3 用電大數(shù)據(jù)分析平臺(tái)
參照云計(jì)算技術(shù)體系結(jié)構(gòu)與處理工具,并結(jié)合電力用戶側(cè)大數(shù)據(jù)分析的實(shí)際需要,搭建以分析計(jì)算為主的電力用戶側(cè)大數(shù)據(jù)管理平臺(tái),其基本架構(gòu)如圖5-24所示,分為應(yīng)用層、私有云計(jì)算層、數(shù)據(jù)管理層。
此框架主要是結(jié)合云計(jì)算技術(shù),利用 Hadoop搭建電力用戶側(cè)大數(shù)據(jù)管理平臺(tái),在平臺(tái)上采用HDFS( Hadoop分布式文件系統(tǒng))、HBase ( hadoop數(shù)據(jù)庫)與Hive( Hadoop數(shù)據(jù)倉庫工具)建立大數(shù)據(jù)存儲(chǔ)系統(tǒng),在平臺(tái)上搭建 MapReduce并行化計(jì)算框架和 Spark內(nèi)存并行化計(jì)算框架作為大數(shù)據(jù)計(jì)算分析系統(tǒng),對(duì)電力用戶側(cè)的大數(shù)據(jù)進(jìn)行分析。
數(shù)據(jù)管理層主要是對(duì)數(shù)據(jù)進(jìn)行采集和集成整合。數(shù)據(jù)采集主要包括從智能電表、 SCADA系統(tǒng)和各種傳感器中采集的數(shù)據(jù),這些數(shù)據(jù)不僅包括電網(wǎng)內(nèi)部的數(shù)據(jù),還包括大量相關(guān)的數(shù)據(jù),這些數(shù)據(jù)由不同產(chǎn)商的設(shè)備產(chǎn)生,模態(tài)千差萬別,各單位數(shù)據(jù)口徑不一,形成了海量異構(gòu)數(shù)據(jù)流,加工整合困難。這些數(shù)據(jù)的集成整合主要是指將傳統(tǒng)系統(tǒng)產(chǎn)生的數(shù)據(jù)遷移至私有云平臺(tái),進(jìn)行高效的管理。
圖5-24用電大數(shù)據(jù)分析架構(gòu)
雖然各廠商都提供了相應(yīng)的應(yīng)用程序編程接口(application pro-gramming interface,API),但其自動(dòng)化程度并不高。簡(jiǎn)單地使用API對(duì)大數(shù)據(jù)進(jìn)行操作效率不高,需要使用第三方工具進(jìn)行操作,如Sqoop和Datanucleus等。Sqoop是一款在Hadoop和關(guān)系數(shù)據(jù)庫之間進(jìn)行相互轉(zhuǎn)移數(shù)據(jù)的工具,利用Sqoop可以使各個(gè)子系統(tǒng)的數(shù)據(jù)在大數(shù)據(jù)平臺(tái)上進(jìn)行整合。 Datanucleus是一款開源的java持久化工具,可以對(duì)HBase、 Cassandra多種非關(guān)系型數(shù)據(jù)庫進(jìn)行操作。
平臺(tái)針對(duì)數(shù)據(jù)集成整合這一難點(diǎn)采用Sqoop工具對(duì)數(shù)據(jù)進(jìn)行抽取整合工作,將各個(gè)獨(dú)立的系統(tǒng)產(chǎn)生的數(shù)據(jù)及歷史數(shù)據(jù)利用Sqoop抽取整合到Hive與HBase中。使用Datanucleus對(duì)列存儲(chǔ)數(shù)據(jù)庫進(jìn)行操作,將基于云計(jì)算的應(yīng)用產(chǎn)生的在線數(shù)據(jù)寫入到HBase中。大數(shù)據(jù)的抽取整合流程如圖5-25所示。
圖5-25用電大數(shù)據(jù)整合抽取流程
云計(jì)算層利用Hadoop搭建而成,大數(shù)據(jù)存儲(chǔ)在分布式文件系統(tǒng)HDFS中,利用Hive、Pig和HBase對(duì)數(shù)據(jù)進(jìn)行管理,電力大數(shù)據(jù)在存儲(chǔ)方面已進(jìn)行了一些研究,例如有文獻(xiàn)提出利用云計(jì)算存儲(chǔ)、運(yùn)算技術(shù)進(jìn)行電力數(shù)據(jù)中心的搭建;有文獻(xiàn)在云計(jì)算平臺(tái)上將數(shù)據(jù)映射成數(shù)據(jù)空間的點(diǎn)集,充分利用計(jì)算存儲(chǔ)資源,實(shí)現(xiàn)數(shù)據(jù)集到數(shù)據(jù)中心的布局方案;有文獻(xiàn)在對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)時(shí)考慮到數(shù)據(jù)的安全性,利用HBase高性能優(yōu)勢(shì)和現(xiàn)代密碼技術(shù),將密鑰與密文的管理分離,開發(fā)了基于Ha-doop的智能電網(wǎng)數(shù)據(jù)安全存儲(chǔ)原型系統(tǒng)。該平臺(tái)利用HBase存儲(chǔ)電力負(fù)荷數(shù)據(jù)和相關(guān)數(shù)據(jù), HBase數(shù)據(jù)庫是列為存儲(chǔ)單元的,方便對(duì)整列數(shù)據(jù)進(jìn)行查詢,而隨后使用的隨機(jī)森林算法在學(xué)習(xí)過程中需要多次對(duì)整列數(shù)據(jù)進(jìn)行讀取計(jì)算,對(duì)數(shù)據(jù)的操作需求符合HBase數(shù)據(jù)存儲(chǔ)的特點(diǎn)。
利用并行化計(jì)算模型MapReduce對(duì)大數(shù)據(jù)進(jìn)行并行化批量計(jì)算分析,而對(duì)數(shù)據(jù)密集型的迭代計(jì)算采用基于內(nèi)存的并行化計(jì)算模型Spark。Spark是一個(gè)開源的分布式集群系統(tǒng),用于大數(shù)據(jù)的快速處理分析。Spark克服了Hadoop在迭代計(jì)算上的不足,現(xiàn)已成為Apache的頂級(jí)項(xiàng)目。Spark提供了一種內(nèi)存并行化計(jì)算框架,框架將作業(yè)所需數(shù)據(jù)讀入內(nèi)存,所需數(shù)據(jù)時(shí)直接從內(nèi)存中查詢,這樣比基于磁盤的MapReduce訪問數(shù)據(jù)的速度快,減少了作業(yè)的運(yùn)行時(shí)間,也減少了IO操作。
并行計(jì)算模型主要是對(duì)大量的數(shù)據(jù)進(jìn)行挖掘,其計(jì)算模型主要有MapReduce、Dremel、Dryad和Cascading等,該平臺(tái)主要利用Map Re-duce模型對(duì)電力用戶側(cè)大數(shù)據(jù)進(jìn)行挖掘分析。
應(yīng)用層主要是利用私有云計(jì)算集群強(qiáng)大的存儲(chǔ)和計(jì)算分析能力為企業(yè)各部門提供決策和指導(dǎo)功能接口。
責(zé)任編輯:電力交易小郭
-
電力消費(fèi)大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺(tái)
-
電力消費(fèi)大數(shù)據(jù)智能分析技術(shù)
-
全球能源互聯(lián)網(wǎng),推動(dòng)綠色能源需求
-
中天科技:決勝分布式儲(chǔ)能之路,匠心布局儲(chǔ)能全產(chǎn)業(yè)鏈
2018-04-13儲(chǔ)能之路 -
杉杉科技10萬噸鋰電池負(fù)極材料項(xiàng)目在內(nèi)蒙古包頭市
-
總投資24.46億元 江鈴集團(tuán)新能源汽車?yán)ッ骰仨?xiàng)目開工
-
【正極材料周報(bào)】LG化學(xué)綁定華友鈷業(yè)40億中國(guó)設(shè)正極材料廠!三元電池或?qū)⒁唤y(tǒng)鋰電江湖!
-
行駛逾16萬英里 特斯拉電池容量的衰減率不足10%
-
NCA體系三元鋰電池開始在國(guó)內(nèi)市場(chǎng)配套乘用車