智能電網(輸變電部分)領域知識體系構建和語義研究與應用
如今,隨著電力技術的發展日新月異,用戶對電能質量的要求也逐漸提高,多個國家陸續提出了各自關于智能電網建設的方案。國家電網公司作為國有特大型央企,提出了建設堅強智能電網,以實現電網中電力流、業務流、
如今,隨著電力技術的發展日新月異,用戶對電能質量的要求也逐漸提高,多個國家陸續提出了各自關于智能電網建設的方案。國家電網公司作為國有特大型央企,提出了建設堅強智能電網,以實現電網中電力流、業務流、信息流的高度融合。智能電網的發展必將使電力系統各環節的聯系更加緊密、數據與信息交互更加頻繁,也正因為如此,各級電網工作人員對知識的需求也更加迫切。
1、當前智能電網領域知識服務存在的問題
1 )知識資源組織管理體系結構落后。現有的智能電網知識資源組織管理體系結構比較單一,缺乏知識點間的關聯性,層級簡單,體系結構仍以圖書形式為主,分類單一,知識點僅遵循“用、代、屬、分、參”關系,顯示方法比較扁平化,已經不能滿足高性能、大容量知識服務的建構、處理與運行的要求。如何描述、存儲、管理、處理、分析和使用海量分布的知識資源進行知識服務,是智能電網領域知識服務應用的重要問題 。
2 )知識服務開發成本高、更新維護困難。智能電網領域的專家系統和知識服務應用雖然可以較好地滿足用戶對知識服務的需求,但受到知識本身時效性強、更新速度快等特點的影響,導致此類知識服務的開發成本高,重用難度大,使得其實現和推廣的難度相對較大。
3 )知識服務同用戶需求本身存在一定的差距。當前智能電網的知識服務檢索結果往往沒有考慮檢索者本身的實際情況,以及用戶難以用計算機能理解的方式描述出其希望了解的內容。
造成這些問題的原因,一方面在于激增的數據超過了現有用戶和系統所能承受、處理和利用的范圍,導致數據無法被及時、合理地組織,決策者未能從中得到應有的啟示;另一方面,知識的表現形式使其不能被有效利用,這是因為目前的知識表示方法不利于電網知識的發現,進而導致不能形式化地表示電網領域知識。
因此,本文研究基于語義網技術,并以輸變電圖書為樣例,對智能電網(輸變電部分)領域知識開展研究,完成智能電網(輸變電部分)知識體系構建,以期更好地為國家電網公司提供知識服務。另外,通過本文研究成果對國家電網公司企業級知識管理系統進行優化,有利于實現知識整理和標引、知識協同構建、資源自動檢索和標注、知識服務模型以及知識資源個性化推送等目標 。以智能電網(輸變電部分)領域知識為研究范圍,以10 kV 配網不停電作業知識為突破口,著力做好該領域知識收集、概念抽取、語義研究和本體設計,研究知識體系構建以及知識庫搭建工作。
本文內容包含系統梳理智能電網(輸變電部分)領域的主題詞條,闡明詞條之間的相互聯系和相互作用;基于本體語言的知識表示方法和原則,開發專用的本體工具,構建智能電網(輸變電部分)知識體系;并以語義檢索應用為目的完成智能電網(輸變電部分)專業知識庫的建立,為整個智能電網領域知識體系的構建提供理論依據及技術支持,同時可對智能電網領域知識挖掘、發現與利用進行有益的探索 。
基于本體設計、語義標引技術,在電力領域專家的指導和配合下,對智能電網(輸變電部分)領域知識開展研究,研究該領域知識收集、概念抽取、本體設計、語義標引、概念體系構建的關鍵技術路徑,并完成了最終的知識庫搭建工作。所完成的專業知識庫系統提供了網站作為檢索接口,集成了本體工具、數據加工模型的圖書文獻檢索等技術 , 實現了智能電網(輸變電部分)知識的語義檢索應用。系統除了處理常規的文本檢索之外,還提供了本體的交互式圖形可視系統、自然語言及問句式查詢系統、語義增強搜索系統以及相關詞條推薦系統,可以智能化地協助用戶提高檢索效率 。
2、領域知識收集
領域知識收集工作包括對793 本與輸變電專業相關圖書、《電力名詞(第二版送審稿)》中指定書目以及《電力主題詞表》的計算機自動處理,并結合專家所提供的分類體系開展工作。
2.1自動分詞
對這些圖書進行自動分詞,即將一本書、一段話看作一個漢字序列,通過計算機將其切分成一個個單獨的詞,以便進行下一步的理解和分析。
在 本 文 研 究 中,對 開 源 工 具Ikanalyzer 、Rwordseg進行了調研和試驗。Ikanalyzer提供了可供Java使用的jar包,以及面向全文檢索工具Lucene的接口,使用方便,主要用它來建立索引、本體以及對搜索語句進行分詞,準確率可達95% ,其分詞示例分詞前的整個段落:“在電力系統中,除應采取各項積極措施消除或減少發生故障的可能性外,故障一旦發生,必須迅速而有選擇地切除故障元件,這是保證電力系統安全運行的最有效方法之一,而繼電保護裝置就是能反映電力系統中電氣元件發生故障或不正常運行的狀態,并動作于斷路器跳閘或發出信號的一種自動裝置。”
計算機分詞和自動去除無實意的詞后的效果如下:“電力系統中因各項措施消除減少發生故障可能性外,故障發生而有選擇切除故障元件這是保證電力系統安全運行最有效方法之一,而繼電保護裝置電力系統中電氣元件發生故障不正常運行狀態動作斷路器跳閘發出信號一種自動裝置”,可以達到建立索引的要求。
Rwordseg是一個R環境下的中文分詞工具,使用rJava調用Java分詞工具Ansj。Ansj基于Apache License ,是一個完全開源、免費的Java中文薦分詞工具。它的實現原理基于Google語義模型和條件隨機場模型。分詞速度可達每秒約200萬字(在Mac Air下測試),準確率能達到96%以上。通過研究,重寫了一個Java 版本,并且全部開源,使得 Ansj可用于人名識別、地名識別、組織機構名識別、多級詞性標注、關鍵詞提取、指紋提取等領域,支持行業詞典、用戶自定義詞典。
2.2詞向量訓練
詞向量訓練是利用深度學習的思想把單詞表示
成向量的一種方式,語義越相近的詞,形成的向量相似度越高。本文采用Google word2vec工具(基于Apache License 2 .0 的開源工具,提供continuou sbag-of-words和skip-gram architectures等算法對詞向量進行訓練)進行詞向量訓練,得到詞向量之后,可以進一步得出這些詞向量的聚類。
2.3詞語篩選
根據停用詞表,去除“的”、“比如”、“別的”等無實意、頻繁出現的但對專業語義分析無實際幫助的詞,編寫程序去除無關的標點符號、亂碼字符及其他短字符。在此基礎上,研究人員通過人工對得到的詞語進行篩選,得出重要的名詞和動詞以及相關概念的英文名和中文描述信息,作為本體分析的對象 。其中,名詞集用來構建領域本體的相關概念,動詞集用來描述領域本體概念之間的關系。
3、概念抽取
本文研究根據專家提供的輸變電專業概念分類,對領域知識中的相關名詞集進行總結歸納,以半自動的方式從相關的圖書和詞典中提取出相關概念,并將其結構化,形成分類體系 。
專家提供的輸變電專業概念分類主要包含資產、作業、文檔的大體框架分類結構,但不涉及每個具體詞條的歸屬。其中資產可以在EnterpriseArchitecture軟件中查看。其他分類體系通過專家口述,研究人員進行記錄,專家進行核對的形式提供。
在領域知識收集之后,使用Apache Jena(Apche的開源項目,提供了Java接口,可使用Java編程對本體進行創建、修改、讀入、保存、查詢、推理等操作)將概念體系導入本體,將詞條進行粗分類;在此基礎上,多次征求高校電氣學院領域專家的意見,使用Stanford Protégé工具(本體開發工具,具有導入、可視化編輯和保存本體的功能)進行交互展示,供專家審核、修改,并進行細分類 。Protégé(本體開發工具)中對本體進行展示及審核修改的工作界面如圖1所示。
4、本體設計
在此階段中,根據相關圖書及專家所提供的頂層概念模型,使用Apache提供的開源工具Jena創建本體,并使用Protégé 和Word文檔相結合的方式進行人工核對。
存儲了中英文名的類如圖2所示,其中每個類均存儲了中英文名、所屬詞典以及簡介。
具體建立過程如下:
1 )根據字符串匹配的方式得出父類與子類的關系;
2 )根據詞典中的描述信息建立等價類關系;
3 )根據詞典中的描述信息得出包含關系,如:根據U型掛環的描述信息得出結論“U型掛環有連接件”;
4 )根據詞典中的描述信息定義反關系,如:“有連接件關系的反關系是組成U型掛環”;
5 )根據名稱定義包含關系及其反關系;
6 )根據詞典中的描述信息建立相關關系,如:鋼管塔的描述信息及其所建立的關系,圖3顯示了從鋼管塔的描述信息中建立其與金具、導線和絕緣子的關系;
7 )根據詞典中的描述信息建立數值型屬性,如:塔高的數值屬性;
8 )建立實例,如:以中原變電站為例,變電站類有地址屬性,屬性用string表示,中原變電站作為其中一個具體的變電站,地址在鄭州,將鄭州作為中原變電站的地址屬性的值。
根據Protégé軟件的自動統計信息,本次研究所建成的本體的規模共有8094個類、21657個Object型屬性、7511個父類–子類關系以及757個等價類。
5、語義標引
在此階段,利用已有的本體對該領域中的文檔資源進行標引,從而實現語義推理的目的,最終實現語義信息檢索 。
在語義標引過程中,對屬于本體中的實例,如:“巡視”、“維護”、“sub station”等加上html的標簽,在前端通過處理與其他未標注文本進行區別顯示,點擊時可自動查詢相應本體。
使用Jena 和Java 對本體進行標注。首先,將本體中類的中文名和英文名用Jena 導出,并根據詞條長度進行由長到短的排序,排序后,“電子互感器”排在“互感器”之前。使用Java 遍歷排序后的數組,為文本中匹配處依次加上 標簽,避免了重復地將“電子互感器”標注為“電子互感器”和“互感器”。
專業詞匯如“變電站”、“互感器”等的標注基本無誤。本體中的其他相關詞匯中含有一些多義詞,人工篩選了“條件”、“單元”、“連結”等多義詞進行剔除。
6、概念體系設計
在專家的幫助下,將智能電網的中英文名、描述信息、層次結構及其關系等知識進行整合,得到智能電網(輸變電部分)領域中的一個概念體系。
概念體系包含了智能電網領域(輸變電部分)中前面提到的所有信息(即概念分類體系以及詞條的中英文名、釋義、等價類、屬性等)。以光纜為例,光纜示例如圖4 所示。
圖4中303.3.8 是“光纜”在本文概念體系中的編號,“optical fiber cable ”是英文名,“18.307 ”是“光纜”在《電力名詞(第二版送審稿)》中的編號,“以光纖為傳輸元件……”這句話是“光纜”的描述信息,“相關材料”,表示“光纜”與“材料”這個概念相關。
責任編輯:lixin
免責聲明:本文僅代表作者個人觀點,與本站無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市