基于機器學習的數據脫敏系統研究與設計
0 引言
近年來,隨著國家電網公司“三集五大”體系的推進,以及SG186、SG-ERP工程的建設,公司信息化實現了由分散到集中、由孤島到共享的轉變,積累了生產運行數據和經營管理數據約5 PB,每月平均增長數據量約46 TB,為數據集中共享和大數據分析、價值挖掘提供了有利條件[1]。但是,數據資源中往往攜帶著有關用戶與企業的敏感、隱私信息,一旦遭遇泄露、篡改,將給個人及公司甚至國家造成無法挽回的損失。因此,在數據共享使用過程中,如何準確定位敏感數據,合理制定脫敏策略,以達到數據安全可信、受控使用的目標,是一項亟待解決的技術問題。
數據安全問題的形勢越來越嚴峻,數據脫敏逐漸受到企業的重視。傳統的數據脫敏研究大多側重于脫敏方法的實現[2-4],缺少權限判決、敏感識別等功能,系統化水平不夠高。同時,脫敏算法的選擇多為人工指定和自定義配置,智能化水平不夠高。此外,模式識別的發展對實現脫敏信息的自動識別提供了技術支持[5],但在敏感信息分類定級問題上缺少對企業需求的考慮,專業化水平不高。
為解決數據脫敏的系統化、智能化、專業化水平不足等弱點,本文提出了一種獨立于其他專業系統之外的數據脫敏系統。該系統同時集成了權限判決、數據分類、敏感信息識別、脫敏任務執行等功能;在敏感信息識別、敏感算法選擇等關鍵環節采用文本分類、決策樹等機器學習方法,可輔助人工實現脫敏策略制定;采用兩層分類方式分類定級敏感信息,第一層按數據的專業和類型分類,第二層按規則進行分類定級。相較于傳統數據脫敏方式,本文提供了一種智能化設計數據脫敏系統的新思路。
1 數據脫敏簡介
數據脫敏又可稱為數據去隱私化、數據變形,是指在保留數據初始特征的條件下,按需制定脫敏策略和任務,對敏感數據進行變換、修改的技術機制,可以在很大程度上解決敏感數據在非安全環境下使用的問題[6]。數據脫敏實現的難點在于如何同時保障數據的安全及其可用性,其關鍵就是脫敏算法的選擇,就現階段而言更多的是一種經驗決策。根據不同的作用位置和實現原理,脫敏任務可分為靜態脫敏(Static Data Masking,SDM)和動態脫敏(Dynamic Data Masking,DDM)。SDM一般用于非生產環境,在應用開發、測試、培訓等場合中,為規避泄露風險,數據必須脫敏后才能被存儲及使用。DDM常用于生產環境,當敏感數據被分析工具在線訪問時,脫敏系統可以按照策略執行相應的脫敏算法。簡言之,DDM與SDM的區別在于是否是在使用敏感數據時才進行脫敏。
圖1 數據脫敏系統應用框圖Fig.1 Application block diagram for data masking system
數據脫敏系統應用框圖如
2 脫敏策略制定
從源系統抽取數據后,脫敏系統要為這些數據制定合適的脫敏策略。在策略制定階段,系統需要著力解決敏感數據如何定級、是否需要脫敏、如何脫敏等一系列問題。
2.1 源數據分類及預處理
2.1.1 源數據分類
脫敏策略制定流程如
圖2 脫敏策略制定流程Fig.2 Flow chart of masking strategy formulation
2.1.2 數據預處理
對源數據進行預處理以提取數據特征,通過數據特征匹配實現敏感信息識別[9]。脫敏系統采用自動化方式采集關系型數據庫和非結構化系統的數據樣本和元數據。結構化數據以數據字典(包括表名和字段名、類型、注釋)的形式進行采集,并通過數據表遍歷的方法從業務數據表中采集一定數量的樣本數據。文本數據采用文本分詞的方法對樣本進行切割與合并,構建文本文件特征。對于圖片、語音、視頻數據,則通過相應領域的模式識別方法進行元數據和樣本提取。元數據和樣本采樣完成后樣本質量往往不佳,需要對其進行過濾和泛化處理,剔除數據“雜質”,以降低敏感信息識別與分類過程中的計算量[10]。
2.2 敏感數據識別定級
敏感數據識別是實現數據脫敏的關鍵前提。針對不同文件格式的數據,其敏感特征的檢測方法會有所差異,數據脫敏系統應對其樣本數據和元數據進行分類訓練,最后分類建立敏感信息庫。
敏感信息識別過程如
圖3 敏感信息識別過程Fig.3 Sensitive information recognition process
2.3 脫敏策略制定
2.3.1 常用的脫敏方法
1)替換。替換(Replacement,RP)是指利用偽裝數據對源數據中的敏感數據進行完全替換。為保證安全,一般替換用的數據都不具可逆性。
2)加密。加密(Encryption,EC)是指對待脫敏的數據進行加密處理,使外部用戶或系統只能夠接觸無意義的加密數據。在特定場景下,系統可以提供解密能力,分發密鑰給相關方以恢復原始數據。
3)遮掩。遮掩(Masking,MK)是指利用掩飾符號對敏感數據的部分內容進行統一替換,使得敏感數據保持部分內容公開。
4)刪除。刪除(Deletion,DL)是指直接刪除敏感數據或將其置為空。
5)變換。變換(Change,CG)是指通過隨機函數對數值和日期類型等源數據進行可控調整,以便在保持原始數據相關統計特征的同時,完成對具體數值的偽裝。
6)混洗。混洗(Shuffle,SF)主要是指通過對敏感數據采取跨行隨機互換來打破其與本行其他數據的關聯關系,從而實現脫敏。
2.3.2 數據脫敏需考慮的因素
數據脫敏的最大難點在于平衡隱私保護和數據挖掘需求,脫敏算法適當與否直接影響到脫敏效果。為了制定合適的脫敏算法,結合具體應用場景,本文重點考慮了以下幾個因素[12]。
1)可用性。即脫敏后的數據應能滿足分析應用需求,若脫敏后的數據無法用于目標分析及應用,就不具備使用價值。在特定應用場景中,可能需要保留部分非關鍵信息(如身份證號碼、手機號碼的部分字段等)才能滿足分析需求。
2)關聯性。對于結構化和半結構化數據,在同一數據表中某字段與另外字段有對應關系,如果脫敏算法破壞了這種關系,該字段的使用價值將不復存在。通常在進行數據統計需要參考量的情況下,對數據的關聯性要求較高。
3)真實性。脫敏后的數據對原始數據邏輯特征和統計分布特征的保留程度。為滿足這種特性,數據的原始值需要盡可能地被保留。
4)時效性。數據提供需要有一定的及時性,超過一定時間后脫敏數據可能就不再具有進一步分析挖掘的意義。因此,應盡量避免使用耗時的脫敏算法,比如加密算法。
5)可重現。即相同源數據在配置相同算法和參數的情況下,脫敏后的數據應保持一致,隨機類的算法應避免使用。
6)可配置。主要是指可以靈活配置、組合脫敏算法,可以結合不同需求生成個性化的脫敏數據。
由于上述各因素需要付諸實際應用才有意義,脫敏算法與脫敏效果之間的關系只能作定性分析。決策樹是一種簡單而又被廣泛使用的分類器,具有描述性,有助于人工分析,同時決策樹只需一次構建,可反復使用[13]。對敏感級值和6個因素進行量化,以具有代表性的應用場景來構建選擇脫敏算法所需的訓練集,形成決策樹。利用決策樹可以高效地對脫敏數據進行算法推薦,輔助系統用戶進行算法選擇。新的脫敏應用發生后,其敏感級值和算法選擇結果將加入訓練集,逐步對決策樹進行完善,從而提高決策樹的魯棒性。

責任編輯:售電衡衡
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市