資源描述:
《數(shù)據(jù)挖掘領(lǐng)域研究現(xiàn)狀與趨勢的可視化分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、數(shù)據(jù)挖掘領(lǐng)域研究現(xiàn)狀與趨勢的可視化分析楊良斌國際關(guān)系學院信息科技學院摘要:數(shù)據(jù)挖掘技術(shù)已成為計算機領(lǐng)域的一個新的研究熱點,其應(yīng)用也滲透到了其他各大領(lǐng)域。以2004-2013年SCI數(shù)據(jù)庫中收錄的2263篇以“數(shù)據(jù)挖掘”為主題的文獻為研究對象,使用可視化軟件CiteSpace繪制關(guān)鍵詞共現(xiàn)圖譜、期刊共引圖譜、機構(gòu)合作圖譜等科學知識圖譜,分析數(shù)據(jù)挖掘領(lǐng)域的熱點以及發(fā)展趨勢。分析結(jié)果表明,2004-2013年數(shù)據(jù)挖掘領(lǐng)域研究處于穩(wěn)步發(fā)展時期。最后獲得該領(lǐng)域各研究方向的現(xiàn)狀和演化趨勢。關(guān)鍵詞:數(shù)據(jù)挖掘;知識圖譜;信息可視化;共現(xiàn)分析;作者簡介:楊良斌,國際關(guān)系學院
2、信息科技學院副主任,副教授,E-mail:yangliangbin@tsinghua.org.cno1引言互聯(lián)網(wǎng)技術(shù)的出現(xiàn)和發(fā)展帶給了人們太多的便利,在網(wǎng)上互換信息和合作變得越來越容易,計算機不斷地提高對各種類數(shù)據(jù)和信息的收集存儲和處理能力,數(shù)據(jù)庫技術(shù)的成熟和普及帶來的結(jié)果是所積累的信息量以指數(shù)方式暴漲11丄。伴隨著急劇增長的數(shù)據(jù)量和對數(shù)據(jù)處理方面的各種需求的增加,傳統(tǒng)的數(shù)據(jù)分析工具已經(jīng)不能承載對那些海量數(shù)據(jù)的操作處理了,人們需要一個將廣博的數(shù)據(jù)轉(zhuǎn)換成知識的技術(shù),數(shù)據(jù)挖掘(datamining)便在這個背景下應(yīng)運而牛。數(shù)據(jù)挖掘有多種定義,其中比較有代表性的
3、一個即是“從數(shù)據(jù)中汲取出包含著的過往不被知道的有利用價值的潛在信息”。作為近年來新興起的學科,數(shù)據(jù)挖掘在學術(shù)界贏得了極高的關(guān)注度,在產(chǎn)業(yè)界贏得了贊譽。早先的數(shù)據(jù)挖掘領(lǐng)域經(jīng)歷了電子郵件階段和信息發(fā)布階段,而如今這項技術(shù)已步入電子商務(wù)階段并逐步走向當下最新的全程電子商務(wù)階段,其應(yīng)用橫跨各個領(lǐng)域并為不同領(lǐng)域提供聯(lián)系與數(shù)據(jù)支持的基礎(chǔ)。在新世紀信息產(chǎn)業(yè)與網(wǎng)絡(luò)互聯(lián)持續(xù)發(fā)展、數(shù)據(jù)激增的背景下,數(shù)據(jù)挖掘領(lǐng)域一直不斷融入新的知識和技術(shù)方法,并不斷以多角度多元化發(fā)展,其學科框架已遍及多個領(lǐng)域。數(shù)據(jù)挖掘相關(guān)技術(shù)如今已被各大領(lǐng)域大力應(yīng)用,如生物學研究中用數(shù)據(jù)挖掘技術(shù)對DNA進行分
4、析図;市場中可以利用數(shù)據(jù)挖掘技術(shù)對顧客的購買行為模式進行識別和區(qū)分,并能對商業(yè)上頻繁出現(xiàn)的詐騙行為予以防備[3-4]。數(shù)據(jù)挖掘的多學科化使學術(shù)界和產(chǎn)業(yè)界的研究人員們面臨諸多挑戰(zhàn),因此探究數(shù)據(jù)挖掘領(lǐng)域的研究熱點和發(fā)展趨勢對于把握該領(lǐng)域的研究現(xiàn)狀和發(fā)展方向具有重要意義和參考價值[5-6]o本文所使用的研究方法為信息可視化研究法,目前常用的科學知識圖譜主要有共詞分析、共引分析、多元統(tǒng)計分析、詞頻分析和社會網(wǎng)絡(luò)分析。其分析的數(shù)據(jù)單元涵蓋作者、關(guān)鍵詞、標題、引文、摘要和作者地址等,通常采用Ucinet.CiteSpace>VOSviewer等可視化分析軟件來繪制。本
5、文所選用的CiteSpace軟件,是由美國德雷克賽爾大學信息科學與技術(shù)學院的陳超美教授于2004年開發(fā)的信息可視化軟件,該軟件近年來在信息可視化分析領(lǐng)域有著不小的影響力,其關(guān)鍵節(jié)點測量、時間年輪等特色功能可以方便研究者們對某個領(lǐng)域當前的熱點與發(fā)展趨勢進行研究蟲。許多學者利用該軟件研究了戰(zhàn)略管理領(lǐng)域的智力結(jié)構(gòu),繪制了共引圖譜,并可視化科學知識的結(jié)構(gòu)、關(guān)系與演化過程[8-10]。本文依據(jù)來自SCI數(shù)據(jù)庫的數(shù)據(jù)挖掘領(lǐng)域相關(guān)文獻,繪制關(guān)鍵詞共現(xiàn)圖譜、期刊共引圖譜、國家及機構(gòu)合作圖譜和時區(qū)視圖這4種類型的科學知識圖譜,進行可視化分析并探討數(shù)據(jù)挖掘領(lǐng)域研究趨勢和熱點,
6、以便于這一領(lǐng)域的相關(guān)研究人員們對數(shù)據(jù)挖掘研究的現(xiàn)狀從總體上有一個大致的了解,并且對其今后的進一步研究有所引導(dǎo)和幫助,從而促進數(shù)據(jù)挖掘領(lǐng)域研究的深入發(fā)展。2數(shù)據(jù)來源與整理本文選取的文獻數(shù)據(jù)來源于美國《科學引文索引》數(shù)據(jù)庫,以2004-2013年共10年為時間跨度,以“datamining"為主題詞進行檢索,得到包括作者、標題、參考文獻等項的2263條文獻記錄,被引頻次總計18727次,去除自引的被引頻次總計17612次,施引文獻15701篇,去除自引的施引文獻15072篇,每項題錄平均引用次數(shù)為8.28次,檢索時間為2014年5月3日。統(tǒng)計得到2004-20
7、13年數(shù)據(jù)挖掘領(lǐng)域每年岀版文獻量及論文被引情況分布圖(見圖1、圖2)o從圖中可以明顯看到,數(shù)據(jù)挖掘領(lǐng)域的相關(guān)研究近10年來一直保持較高熱度,每年的文獻岀版量都保持在200篇以上,口于2012、2013年分別突破250篇;文獻被引頻次逐年增加,2013年更是達到了近3500次,說明數(shù)據(jù)挖掘在近一兩年的影響力逐步攀升,甚至在計算機等相關(guān)領(lǐng)域的用途越來越廣,作用越來越不能被忽視。也許,真正屬于數(shù)據(jù)挖掘技術(shù)的時代才剛剛開始。圖12004-2013年數(shù)據(jù)挖掘領(lǐng)域論文發(fā)表數(shù)量的年度分布下載原圖圖22004-2013年數(shù)據(jù)挖掘領(lǐng)域論文被引頻次的年度分布下載原圖3各圖譜的
8、生成及分析3.1關(guān)鍵詞共現(xiàn)圖譜共現(xiàn)指的是文獻當中相同或不同特征項共