基于機器學習的數據脫敏系統研究與設計

2018-03-20 15:54:05 電力信息與通信技術　點擊量：評論 (0)

近年來,國家電網公司各專業信息系統建設不斷完善,為了保障數據在各類應用場景中安全使用,提出了一種基于機器學習的數據脫敏系統設計方案,重點針對敏感數據識別、定級,敏感算法制定,以及脫敏任務配置的實現方式進行研究。結合用戶欠費信息的脫敏分析,驗證了該方案具有自定義定級

0 引言

近年來,隨著國家電網公司“三集五大”體系的推進,以及SG186、SG-ERP工程的建設,公司信息化實現了由分散到集中、由孤島到共享的轉變,積累了生產運行數據和經營管理數據約5 PB,每月平均增長數據量約46 TB,為數據集中共享和大數據分析、價值挖掘提供了有利條件^[1]。但是,數據資源中往往攜帶著有關用戶與企業的敏感、隱私信息,一旦遭遇泄露、篡改,將給個人及公司甚至國家造成無法挽回的損失。因此,在數據共享使用過程中,如何準確定位敏感數據,合理制定脫敏策略,以達到數據安全可信、受控使用的目標,是一項亟待解決的技術問題。

數據安全問題的形勢越來越嚴峻,數據脫敏逐漸受到企業的重視。傳統的數據脫敏研究大多側重于脫敏方法的實現^[2-4],缺少權限判決、敏感識別等功能,系統化水平不夠高。同時,脫敏算法的選擇多為人工指定和自定義配置,智能化水平不夠高。此外,模式識別的發展對實現脫敏信息的自動識別提供了技術支持^[5],但在敏感信息分類定級問題上缺少對企業需求的考慮,專業化水平不高。

為解決數據脫敏的系統化、智能化、專業化水平不足等弱點,本文提出了一種獨立于其他專業系統之外的數據脫敏系統。該系統同時集成了權限判決、數據分類、敏感信息識別、脫敏任務執行等功能;在敏感信息識別、敏感算法選擇等關鍵環節采用文本分類、決策樹等機器學習方法,可輔助人工實現脫敏策略制定;采用兩層分類方式分類定級敏感信息,第一層按數據的專業和類型分類,第二層按規則進行分類定級。相較于傳統數據脫敏方式,本文提供了一種智能化設計數據脫敏系統的新思路。

1 數據脫敏簡介

數據脫敏又可稱為數據去隱私化、數據變形,是指在保留數據初始特征的條件下,按需制定脫敏策略和任務,對敏感數據進行變換、修改的技術機制,可以在很大程度上解決敏感數據在非安全環境下使用的問題^[6]。數據脫敏實現的難點在于如何同時保障數據的安全及其可用性,其關鍵就是脫敏算法的選擇,就現階段而言更多的是一種經驗決策。根據不同的作用位置和實現原理,脫敏任務可分為靜態脫敏（Static Data Masking,SDM）和動態脫敏（Dynamic Data Masking,DDM）。SDM一般用于非生產環境,在應用開發、測試、培訓等場合中,為規避泄露風險,數據必須脫敏后才能被存儲及使用。DDM常用于生產環境,當敏感數據被分析工具在線訪問時,脫敏系統可以按照策略執行相應的脫敏算法。簡言之,DDM與SDM的區別在于是否是在使用敏感數據時才進行脫敏。

圖1 數據脫敏系統應用框圖Fig.1 Application block diagram for data masking system

數據脫敏系統應用框圖如圖1所示,本文構想了數據脫敏系統在國家電網公司的應用場景。用戶或外部系統通過已集成的賬號進入數據脫敏系統后,脫敏系統首先判斷賬號所具有的權限,并分配相應功能^[7]。脫敏系統根據用戶需求從各專業系統及公共系統抽取數據（包括結構化和非結構化數據）,并對抽取的源數據進行分類、預處理、敏感識別定級以及選擇脫敏算法和參數,完成脫敏策略制定。在變更脫敏任務時,用戶可選擇脫敏執行方式,其中靜態脫敏可用于開發、測試以及數據遷移和存儲;動態脫敏通過代理方式可為全業務統一數據中心等數據分析系統提供脫敏服務。如果沒有新的數據或配置要求,脫敏策略和脫敏任務可以在脫敏系統中保存,以備后續調用及執行。

2 脫敏策略制定

從源系統抽取數據后,脫敏系統要為這些數據制定合適的脫敏策略。在策略制定階段,系統需要著力解決敏感數據如何定級、是否需要脫敏、如何脫敏等一系列問題。

2.1 源數據分類及預處理

2.1.1 源數據分類

脫敏策略制定流程如圖2所示。由于不同類型數據的敏感信息識別方法不同,系統需要對源數據分門別類。另外,同時識別多個專業的敏感信息也會為識別過程帶來大量干擾,嚴重影響敏感信息識別的準確率^[8]。根據文件格式類型,源數據可被分類為結構化數據、文本數據、圖片、語音及視頻數據。根據源業務系統不同,源數據可被分類為人財物、規劃、建設、運行、檢修及營銷等數據。為了便于分類,本文系統分別為文本格式及業務系統分類設置了相應代碼。

圖2 脫敏策略制定流程Fig.2 Flow chart of masking strategy formulation

2.1.2 數據預處理

對源數據進行預處理以提取數據特征,通過數據特征匹配實現敏感信息識別^[9]。脫敏系統采用自動化方式采集關系型數據庫和非結構化系統的數據樣本和元數據。結構化數據以數據字典（包括表名和字段名、類型、注釋）的形式進行采集,并通過數據表遍歷的方法從業務數據表中采集一定數量的樣本數據。文本數據采用文本分詞的方法對樣本進行切割與合并,構建文本文件特征。對于圖片、語音、視頻數據,則通過相應領域的模式識別方法進行元數據和樣本提取。元數據和樣本采樣完成后樣本質量往往不佳,需要對其進行過濾和泛化處理,剔除數據“雜質”,以降低敏感信息識別與分類過程中的計算量^[10]。

2.2 敏感數據識別定級

敏感數據識別是實現數據脫敏的關鍵前提。針對不同文件格式的數據,其敏感特征的檢測方法會有所差異,數據脫敏系統應對其樣本數據和元數據進行分類訓練,最后分類建立敏感信息庫。

敏感信息識別過程如圖3所示,通過訓練集獲得文本、音頻的語料庫和圖像視頻的特征數據庫,由安全部門和業務人員共同對語料庫和特征數據庫進行識別和分類^[11],選取其中具有代表意義的,可被標識為敏感信息的詞、圖像塊、音頻幀,形成敏感信息庫,結合敏感信息模式匹配和源業務系統的重要程度,由人工輔助設定敏感級值,用于敏感信息定級。對預處理后的目標數據進行特征提取,將提取的特征值與敏感信息庫的特征值進行匹配,當匹配命中時系統自動記錄當前敏感信息的敏感級值。最后通過識別質量評估對錯誤分類進行糾正,并對未能識別的敏感信息進行補充。

圖3 敏感信息識別過程Fig.3 Sensitive information recognition process

2.3 脫敏策略制定

2.3.1 常用的脫敏方法

1）替換。替換（Replacement,RP）是指利用偽裝數據對源數據中的敏感數據進行完全替換。為保證安全,一般替換用的數據都不具可逆性。

2）加密。加密（Encryption,EC）是指對待脫敏的數據進行加密處理,使外部用戶或系統只能夠接觸無意義的加密數據。在特定場景下,系統可以提供解密能力,分發密鑰給相關方以恢復原始數據。

3）遮掩。遮掩（Masking,MK）是指利用掩飾符號對敏感數據的部分內容進行統一替換,使得敏感數據保持部分內容公開。

4）刪除。刪除（Deletion,DL）是指直接刪除敏感數據或將其置為空。

5）變換。變換（Change,CG）是指通過隨機函數對數值和日期類型等源數據進行可控調整,以便在保持原始數據相關統計特征的同時,完成對具體數值的偽裝。

6）混洗。混洗（Shuffle,SF）主要是指通過對敏感數據采取跨行隨機互換來打破其與本行其他數據的關聯關系,從而實現脫敏。

2.3.2 數據脫敏需考慮的因素

數據脫敏的最大難點在于平衡隱私保護和數據挖掘需求,脫敏算法適當與否直接影響到脫敏效果。為了制定合適的脫敏算法,結合具體應用場景,本文重點考慮了以下幾個因素^[12]。

1）可用性。即脫敏后的數據應能滿足分析應用需求,若脫敏后的數據無法用于目標分析及應用,就不具備使用價值。在特定應用場景中,可能需要保留部分非關鍵信息（如身份證號碼、手機號碼的部分字段等）才能滿足分析需求。

2）關聯性。對于結構化和半結構化數據,在同一數據表中某字段與另外字段有對應關系,如果脫敏算法破壞了這種關系,該字段的使用價值將不復存在。通常在進行數據統計需要參考量的情況下,對數據的關聯性要求較高。

3）真實性。脫敏后的數據對原始數據邏輯特征和統計分布特征的保留程度。為滿足這種特性,數據的原始值需要盡可能地被保留。

4）時效性。數據提供需要有一定的及時性,超過一定時間后脫敏數據可能就不再具有進一步分析挖掘的意義。因此,應盡量避免使用耗時的脫敏算法,比如加密算法。

5）可重現。即相同源數據在配置相同算法和參數的情況下,脫敏后的數據應保持一致,隨機類的算法應避免使用。

6）可配置。主要是指可以靈活配置、組合脫敏算法,可以結合不同需求生成個性化的脫敏數據。

由于上述各因素需要付諸實際應用才有意義,脫敏算法與脫敏效果之間的關系只能作定性分析。決策樹是一種簡單而又被廣泛使用的分類器,具有描述性,有助于人工分析,同時決策樹只需一次構建,可反復使用^[13]。對敏感級值和6個因素進行量化,以具有代表性的應用場景來構建選擇脫敏算法所需的訓練集,形成決策樹。利用決策樹可以高效地對脫敏數據進行算法推薦,輔助系統用戶進行算法選擇。新的脫敏應用發生后,其敏感級值和算法選擇結果將加入訓練集,逐步對決策樹進行完善,從而提高決策樹的魯棒性。