數據挖掘技術在隨書光盤中的應用
摘 要:本文分析了目前圖書館隨書光盤管理方面存在的問題,闡述了數據挖掘技術在隨書光盤應用中的需要,通過對隨書光盤信息進行數據挖掘,發現讀者借閱歷史記錄中隱藏的一些關系,并對隱藏的這些關系進行了具體的
摘 要:本文分析了目前圖書館隨書光盤管理方面存在的問題,闡述了數據挖掘技術在隨書光盤應用中的需要,通過對隨書光盤信息進行數據挖掘,發現讀者借閱歷史記錄中隱藏的一些關系,并對隱藏的這些關系進行了具體的分析。
關鍵詞:隨書光盤 數據挖掘 關聯規則
關鍵詞:隨書光盤 數據挖掘 關聯規則
隨著科學技術的不斷發展和進步,現在越來越多的圖書都附帶隨書光盤,它主要是存儲與書籍內容相關的圖像、音頻和視頻。讀者通過對光盤內容的進一步學習,不僅可以大大地豐富其理論知識,而且還能夠相應的拓展其知識面,主要是可以把他們學習到的理論知識很好地運用到實際工作和生活中。
目前,已經有許多圖書館采用數據挖掘技術為圖書館的信息管理服務,但一般以書籍借閱信息作為原始數據進行處理。隨著圖書館隨書光盤的不斷增多,讀者自由選擇范圍的增大,圖書館的圖書借閱量呈直線上升趨勢。如何對隨書光盤借閱產生的大量數據進行有效的分析,怎樣找出有價值的信息更好地為圖書館的管理服務,讓圖書館的紙制資源、隨書光盤和電子資源整合并統一進行數據挖掘,具有重大的理論價值和現實意義。
1 隨書光盤管理的現狀
圖書館隨書光盤的管理主要有三種模式:一是光盤隨書進行流通管理,這種方式管理方便,缺點是容易造成混亂和損失。二是光盤和圖書分開進行管理,讀者需要借閱光盤時進行單位借閱和拷貝,優點是減少損失,缺點是借閱不便。三是通過計算機網絡進行數字化管理,優點是方便讀者借閱,缺點是管理成本高[1]。
在光盤和圖書分開借閱的管理方式下,
讀者需要進行二次借閱,造成借閱量不高,使得許多圖書資源得不到有效利用,為知識的傳播帶來不便。為了更好的向讀者提供服務,方便讀者使用隨書光盤,提高圖書館資源的使用率,目前隨書光盤正越來越多的采用網絡存儲管理。網絡管理的方式需要有相應軟硬件設備,比如網絡設施、存儲設備和相應的軟件,不僅要對原始光盤的數據進行相應的處理和存儲,還要在使用過程中對相應的軟硬件設施進行相應的維護。隨書光盤的網絡借閱管理將會產生大量與讀者查詢下載相關的借閱信息,如何利用這些借閱信息進行有效的數據分析,是提高圖書館服務水平的重要工具。
2 數據挖掘
2.1 數據挖掘概述
數據挖掘就是從大量數據中提取或者“挖掘”知識,但這些數據是不完全的、模糊的、含噪聲的和隨機的,而數據挖掘就是要從中提取出那些隱含的、未知的、有價值的和潛在的信息的過程,它也可以看作是一種決策支持過程,通過對各組織的海量數據進行分析,歸納推理并從中挖掘出潛在的模式,其結果將可為管理層的決策提供支持[2]。
2.2 數據挖掘工作的流程(見圖1)
第一,確定數據源對象。確定數據挖掘任務的應用要求,對所需要處理的大量原始數據進行收集。第二,確定目標數據。根據數據挖掘的任務要求確定數據目標,從原始數據中選出需要進行挖掘的數據。第三,預處理及轉換數據。預處理需要對目標數據進行處理,檢查數據是否符合一致性要求,去除掉數據含有的噪聲。數據轉換的主要任務是對預處理的數據進行相應操作,用以降低數據維數,減少數據數量。第四,數據挖掘。根據對數據進行挖掘的目標和用戶的需要,確定要用到的挖掘算法,因為根據不同的任務目標,可能用到的挖掘方法也不一樣,比如有分類、總結、聚類和關聯規則等方法。對數據通過確定的算法進行相應的數據挖掘,得到用戶需要的模式。第五,解釋評價。對得到的模式進行解釋評價,經過用戶或機器的評估后,當有冗余或無關的模式,要將其去掉;當發現模式不是用戶期望要求,就需要重新選取數據,采用新的數據變換方法,設定新的數據挖掘參數值,甚至換一種挖掘算法重新進行數據的挖掘。第六,得到用戶需要的模式,并對它進行評價以用戶可以理解的方式顯示給出來[3]。
3 圖書館隨書光盤的數據挖掘
3.1 關聯規則挖掘概述
關聯規則挖掘是為了發現數據庫中不同數據項集間隱藏的關聯關系。關聯規則有兩個重要的標準:一是支持度(Support),表示在事務中A和B同時出現的概率有多大,可用概率 P(AB)表示;二是可信度(confidence), 它表示關聯規則A出現時B同時出現的可能性有多大,它可用條件概率P(B|A)表示。關聯規則的挖掘算法是要在事務中找出具有設定的最小支持度和最小可信度的關聯規則。
3.2 Apriori算法及在光盤挖掘中的應用
目前有大量關于關聯規則挖掘的研究成果,出現了各種各樣的挖掘算法。如Apriori、抽樣算法和DIC算法等[4]。 在隨書光盤挖掘中將使用Apriori算法對光盤借閱信息進行關聯規則挖掘。
Apriori算法中首先要生成頻繁項集然后頻繁項集根據最小支持度和最小可信度產生關聯規則。
Apriori算法的步驟如下[5]:
輸入:事務數據庫D,最小支持度閾值minsup
輸出:D中的所有的頻繁項集
L1=search_frequent_1_itemsets( D );// ?所有頻繁?1?項集?
for(k=2;Lk-1 !=φ;k++)?
begin
Ck=apriori_gen(Lk-1,minsup); //生成候選項集 所有的k-項集中滿足其(k-1)- 子集都在Lk-1里的全體
//掃描數據庫事物集
for?each?transaction?t?in?D
begin
Ct=subset(Ck,t);
// Ct是Ck中被t包含的候選集的集合
for?each?candidate?c?in Ct
?c.count++;?
end
Lk?={c?∈Ck|c.count>=minsup};
// Lk?是Ck中滿足不小于minsup的全體項集
end
Result=Result∪Lk; //得到所有頻繁項集
3.3 隨書光盤的信息挖掘形式
其一,利用圖書查詢和借閱信息進行綜合的數據分析,可以找到光盤的關聯關系。由于現在知識更新的非常快,所以只提取近十年的數據。首先需要把讀者按專業和年級進行分類,然后根據學生的專業、班級等內容按學期把學生借閱歷史信息提取出來。
從借閱歷史記錄中搜尋的原始數據可能存在許多空的數據和含有噪聲的數據,這會影響最后挖掘結果的準確性。在進行數據挖掘前要對這些數據進行預處理以消除噪聲和冗余信息。以一年級計算機專業為例,對光盤按登錄號進行排序。下表1為根據學期分類的借閱信息。
表1 光盤借閱信息表
借書證號 | 班級號 | 光盤1 | 光盤2 | 光盤3 | 光盤4 | 光盤5 | 光盤6 | 光盤7 | …… |
14010112 | 030402 | 1 | 1 | 1 | 1 | 1 | …… | ||
14010113 | 030402 | 1 | 1 | 1 | 1 | …… | |||
14010202 | 030402 | 1 | 1 | 1 | …… | ||||
14010212 | 030402 | 1 | 1 | 1 | 1 | …… |
讀者借閱了光盤1又借閱了光盤2,就說明光盤1和光盤2之間有關聯關系。從中可以找出具有關聯關系的光盤數據,然后進行統一處理,把有效的內容推薦給讀者。根據學生開課進行組織列成序列,形成課程相關的推薦圖書和光盤的內容。
其二,可以引入與學生的學習成績相關的信息,根據與學生所開設的課程相關的圖書和光盤信息,分析學生怎樣使用圖書和隨書光盤進行學習可以不斷提高學習效率,并找出具有針對性的光盤數據向學生進行推薦。首先要找出學生開設的課程,然后根據開設的課程對其借閱的圖書和光盤進行分類,消除產生的大量冗余信息,分析學習這門課的每個學生所借閱的與課程相關的各種光盤,如表2 所示。
表2 學生學習成績和光盤借閱信息表
借書證號 | 成績 | 光盤1 | 光盤2 | 光盤3 | 光盤4 | 光盤5 | 光盤6 | …… |
14010112 | A | 1 | 1 | 1 | 1 | …… | ||
14010113 | A | 1 | 1 | 1 | …… | |||
14010202 | B | 1 | 1 | …… | ||||
14010212 | C | 1 | 1 | 1 | …… |
采用關聯規則算法,把最小支持度設為30%,進行數據挖掘可以得到關聯規則。
3.4 結果分析
數據挖掘結束后,要對所得到的用戶模式進行解釋與評估,比如借閱光盤1的學生成績要好于不借的學生。可得出光盤1有效地提高了學習效率。那么就可以推薦學生進行相應的學習。通過引入數據挖掘,發現隨書光盤之間的關聯關系,并且找出能有效提高學生學習成績的圖書光盤,按照讀者的學習進度推薦相關的內容。
根據任務要求整個系統由三部分組成數據預處理、關聯規則挖掘和分析評估。主要系統可采用PHP程序語言、Linux操作系統、Apache服務器和MySQL數據庫來實現。
4 結語
隨書光盤作為一種重要的圖書館資源,它對讀者學習起到的作用不言而喻,尤其在計算機應用廣泛普及的今天,大學里圖書館的服務對象主要是學生,如何讓學生更好的利用隨書光盤進行相應的知識學習,不斷提高學習效率,值得我們進一步探討和研究。在圖書館的日常工作當中,有效地對隨書光盤進行管理和使用已經成為一項重要的工作內容,我們借助于數據挖掘技術對其進行了整體分析,目的就是讓讀者能夠有效地利用書籍和隨書光盤,同時也讓圖書館的工作效率進一步提高,為讀者提供更多的學習支持和服務。
責任編輯:葉雨田
免責聲明:本文僅代表作者個人觀點,與本站無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
-
現貨模式下谷電用戶價值再評估
2020-10-10電力現貨市場,電力交易,電力用戶 -
PPT | 高校綜合能源服務有哪些解決方案?
2020-10-09綜合能源服務,清潔供熱,多能互補 -
深度文章 | “十三五”以來電力消費增長原因分析及中長期展望
2020-09-27電力需求,用電量,全社會用電量
-
PPT | 高校綜合能源服務有哪些解決方案?
2020-10-09綜合能源服務,清潔供熱,多能互補 -
深度文章 | “十三五”以來電力消費增長原因分析及中長期展望
2020-09-27電力需求,用電量,全社會用電量 -
我國電力改革涉及的電價問題
-
貴州職稱論文發表選擇泛亞,論文發表有保障
2019-02-20貴州職稱論文發表 -
《電力設備管理》雜志首屆全國電力工業 特約專家征文
2019-01-05電力設備管理雜志 -
國內首座蜂窩型集束煤倉管理創新與實踐
-
人力資源和社會保障部:電線電纜制造工國家職業技能標準
-
人力資源和社會保障部:變壓器互感器制造工國家職業技能標準
-
《低壓微電網并網一體化裝置技術規范》T/CEC 150
2019-01-02低壓微電網技術規范
-
現貨模式下谷電用戶價值再評估
2020-10-10電力現貨市場,電力交易,電力用戶 -
建議收藏 | 中國電價全景圖
2020-09-16電價,全景圖,電力 -
一張圖讀懂我國銷售電價附加
2020-03-05銷售電價附加
-
電氣工程學科排行榜發布!華北電力大學排名第二
-
國家電網61家單位招聘畢業生
2019-03-12國家電網招聘畢業生 -
《電力設備管理》雜志讀者俱樂部會員招募
2018-10-16電力設備管理雜志