資源描述:
《淺談數(shù)據(jù)挖掘在圖書管理方面應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、淺談數(shù)據(jù)挖掘在圖書管理方面應(yīng)用【摘要】本文以數(shù)據(jù)挖掘的定義出發(fā),對數(shù)據(jù)挖掘的功能及分類進(jìn)行簡要的概述,最終探討了數(shù)據(jù)挖掘技術(shù)在圖書館管理以及讀者服務(wù)這兩方面的應(yīng)用,希望給我們圖書員的工作起到一定的指導(dǎo)效果?!娟P(guān)鍵詞】數(shù)據(jù)挖掘;圖書管理0.引言隨著社會的發(fā)展,圖書管理工作相對于以往面臨著更大的難題,比如海量的數(shù)據(jù)、個性化需求等。在這種背景下,數(shù)據(jù)挖掘技術(shù)在解決這些問題的過程中具有非常大的優(yōu)勢,因此,本文關(guān)于數(shù)據(jù)挖掘在圖書管理方面運(yùn)用有著很強(qiáng)的實踐意義。1?數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘的英文全稱為DataMining,被我們簡稱為DM,主要是指從數(shù)據(jù)庫中抽取具備潛在應(yīng)用價值、以前未知、隱含信
2、息的過程,主要用途是為決策者提供數(shù)據(jù)之間的關(guān)聯(lián),找尋被忽視的因素,因此,能夠?qū)ξ覀兊念A(yù)測及決策行為起到很強(qiáng)的促進(jìn)效果。在數(shù)據(jù)挖掘技術(shù)中,一個相關(guān)性非常強(qiáng)的概念為知識發(fā)現(xiàn),這是指在信息背景下從很多數(shù)據(jù)中找出有效的、新穎的、可信的模式的處理過程,其主要的應(yīng)用對象為VLD13,目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)庫中規(guī)律性的知識??梢哉f,數(shù)據(jù)挖掘?qū)儆谝环N特定的知識發(fā)現(xiàn),也是知識發(fā)現(xiàn)過程中最為重要的一部分。2?數(shù)據(jù)挖掘的分類數(shù)據(jù)具有多種多樣的表現(xiàn)形式,因此,我們可以以研究對象數(shù)據(jù)結(jié)構(gòu)的形式對數(shù)據(jù)挖掘進(jìn)行劃分,具體來說,數(shù)據(jù)挖掘可以分為數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘以及WEB數(shù)據(jù)挖掘這三類。首先,數(shù)據(jù)挖掘。這一類的數(shù)據(jù)
3、挖掘?qū)ο笾饕墙Y(jié)構(gòu)化數(shù)據(jù),比如在包括SQLServerQracleInformix在內(nèi)的一些數(shù)據(jù)庫中可以應(yīng)用這一類數(shù)據(jù)挖掘。其次,WEB數(shù)據(jù)挖掘。在廣義上說,這一類數(shù)據(jù)挖掘可以看做是從互聯(lián)網(wǎng)中發(fā)現(xiàn)及分析有用的信息,具體來說,其定義具有兩種意義:WEB內(nèi)容挖掘,這是從數(shù)量極大的在線數(shù)據(jù)庫及WEB站點中對信息、資料進(jìn)行搜索及獲?。籛EB使用挖掘,在這個過程中將建立并分析讀者所訪問站點及服務(wù)的模型。一般情況下,在WEB挖掘過程中所使用的工具主要有:SpeedTracer以及WebLogMiner等。第三,用戶挖掘。在數(shù)字圖書館中,用戶挖掘主要是通過對用戶訪問圖書館留下的記錄進(jìn)行分析,進(jìn)
4、而對用戶訪問模式及挖掘,最終為網(wǎng)站的經(jīng)營及管理提供決策服務(wù)。這類數(shù)據(jù)挖掘主要又可以分為訪問模式的追蹤以及個性化使用記錄的追蹤這兩類。3.數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘技術(shù)不但能夠幫助我們查詢及遍歷過去的數(shù)據(jù),還可以預(yù)測將來趨勢及行為,并對以前沒有發(fā)現(xiàn)的模式進(jìn)行自動探索,進(jìn)而提升我們決策的可靠性。總結(jié)起來其功能可以分為以下幾個方面:首先,關(guān)聯(lián)分析,在數(shù)據(jù)庫中,如果一些能夠被發(fā)現(xiàn)的、重要的兩個或者多個變量之間存在著一種規(guī)律性的取值則可以認(rèn)為它們之間存在著關(guān)聯(lián)。我們進(jìn)行關(guān)聯(lián)分析的主要作用是探尋出數(shù)據(jù)庫里的隱藏關(guān)聯(lián)網(wǎng)。其次,聚類。所謂聚類主要是指數(shù)據(jù)庫中的記錄能夠被劃為一系列具有意義的子集。這一
5、技術(shù)包含了傳統(tǒng)模式識別方法數(shù)學(xué)分類學(xué)。它能夠提升我們認(rèn)識客觀事實的效率,屬于偏差分析以及概念描述的基礎(chǔ)和前提。第三,概念描述。這主要是描述某對象的內(nèi)涵,并對其中的有關(guān)特征進(jìn)行概括,它包括區(qū)別性描述以及特征性描述,在生成區(qū)別性描述的過程中主要的方法有遺傳算法、決策樹算法等,而生成特征性描述的過程中則只會對所有對象的共性進(jìn)行涉及。最后,偏差檢測。在數(shù)據(jù)庫中,數(shù)據(jù)往往會存在異常記錄,對于這些偏差進(jìn)行檢測具有很強(qiáng)的意義。偏差中存在很多潛在知識,舉例來說,分類過程中的反常實例、不符合規(guī)則特例、模型預(yù)測及觀測結(jié)果的偏差等。3.圖書管理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用4.1應(yīng)用于圖書館的管理圖書館的管理是
6、圖書管理的前提和基礎(chǔ),在圖書管理中,數(shù)據(jù)挖掘技術(shù)主要起到以下作用:首先,數(shù)據(jù)挖掘技術(shù)能夠為圖書館更好的發(fā)展提供定位。在圖書館經(jīng)營的過程中,服務(wù)現(xiàn)實需求以及客觀條件制約都是不可避免的,做好自身發(fā)展定位極為重要。因此我們要對面向服務(wù)群及自身的潛在資源產(chǎn)生足夠的了解,而通過數(shù)據(jù)挖掘技術(shù)則可以幫助我們提升規(guī)劃結(jié)果的科學(xué)性。其次,圖書館的經(jīng)營過程中,人才是至關(guān)重要的,而所謂人才無外乎專業(yè)水平、思想道德、現(xiàn)代化信息技術(shù)水平等。因此,我們可以在收集相關(guān)文獻(xiàn)的基礎(chǔ)上,從中建立一個可執(zhí)行、可調(diào)整以及可預(yù)測的模型,為人才的規(guī)劃提供科學(xué)依據(jù)。第三,文獻(xiàn)管理歸根結(jié)底屬于知識管理,而知識管理又是從數(shù)據(jù)中對
7、有效知識進(jìn)行管理的過程,數(shù)據(jù)挖掘技術(shù)作為從數(shù)據(jù)庫中抽取未知、隱含、具有潛在價值信息的過程,二者兩雖有區(qū)別,但具有更大的一致性。因此,文獻(xiàn)信息管理是可以利用數(shù)據(jù)挖掘技術(shù)來發(fā)現(xiàn)及解決問題的。尤其在當(dāng)前的環(huán)境下,資金比較受限制,如何做好各學(xué)科的分配更是非常重要。4.2應(yīng)用于讀者服務(wù)(1)為讀者起到導(dǎo)讀的作用。在圖書館中,讀者導(dǎo)讀一直屬于一項工作重點。當(dāng)前屬于數(shù)字化時代,信息資源無論在數(shù)量上,還是在速度和來源上,相對以往都有很大的不同,這就導(dǎo)致我們讀者容易產(chǎn)生信息過剩反而無從下手的感覺。