資源描述:
《新關(guān)聯(lián)規(guī)則挖掘算法在web挖掘上的研究和應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、分類TP301.6密級_____________碩士學位論文新關(guān)聯(lián)規(guī)則挖掘算法在WEB挖掘上的研究和應(yīng)用王明芳導(dǎo)師姓名職稱:蔣蕓副教授專業(yè)名稱:研究方向:計算機軟件與理論數(shù)據(jù)挖掘論文答辯日期:2012.05學位授予日期:2012.06答辯委員會主席:評閱人:二零一二年五月碩士學位論文M.DThesis新關(guān)聯(lián)規(guī)則挖掘算法在WEB挖掘上的研究和應(yīng)用ResearchandApplicationofANewAssociationRulesMiningAlgrithmonWebMining王明芳WangMing-fang獨創(chuàng)性
2、聲明本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝的地方外,論文中不包括其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得西北師范大學或其他教育機構(gòu)的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。簽名:日期:關(guān)于論文使用授權(quán)的說明本人完全了解西北師范大學有關(guān)保留、使用學位論文的規(guī)定,即:學校有權(quán)保留送交論文的復(fù)印件,允許論文被查閱和借閱;學校可以公布論文的全部或部分內(nèi)容,可以采用影印、縮印或其他復(fù)制手段保存論文。(
3、保密的論文在解密后應(yīng)遵守此規(guī)定)簽名:導(dǎo)師簽名:I日期:摘要數(shù)據(jù)挖掘是近年來隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的一種信息技術(shù),它融合了數(shù)據(jù)庫、人工智能以及統(tǒng)計學等多種學科,試圖從數(shù)據(jù)庫中提取出先前未知、有效和實用的知識。Web數(shù)據(jù)挖掘是傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,是從Web上的數(shù)據(jù)(如Web日志、頁面內(nèi)容等)中發(fā)現(xiàn)用戶的瀏覽模式或?qū)ふ蚁嚓P(guān)的Web頁面,Web使用模式挖掘主要是對Web日志數(shù)據(jù)進行分析處理。關(guān)聯(lián)規(guī)則是Web挖掘中一個重要的研究領(lǐng)域。為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系,將關(guān)聯(lián)規(guī)則的概念引入到Web挖掘系
4、統(tǒng)中,把用戶的訪問路徑以關(guān)聯(lián)規(guī)則的形式表現(xiàn)出來。通過挖掘用戶的頻繁訪問路徑來重構(gòu)站點的頁面之間的鏈接關(guān)系,以改進Web站點設(shè)計使其更適應(yīng)用戶的訪問習慣,同時也可以為用戶提供個性化的信息服務(wù)。所以本文提出的基于粗糙集和單事務(wù)項組合的關(guān)聯(lián)規(guī)則挖掘算法在Web上的應(yīng)用具有理論意義和現(xiàn)實意義。本文主要工作和創(chuàng)新點如下:(1)提出一種新的基于粗糙集和單事務(wù)項組合的關(guān)聯(lián)規(guī)則挖掘算法。Apriori算法必須反復(fù)地掃描數(shù)據(jù)庫才能求出頻繁項集,效率較低,且不支持更新挖掘。為了解決這些問題,提出了一種基于粗糙集、單事務(wù)項組合和集合運算的關(guān)聯(lián)規(guī)則挖掘算法。
5、本算法只需要掃描一次數(shù)據(jù)庫,同時有效地支持了關(guān)聯(lián)規(guī)則的更新挖掘。應(yīng)用實例和實驗結(jié)果表明,該算法明顯優(yōu)于Apriori算法,是一種有效且快速的關(guān)聯(lián)規(guī)則挖掘算法。(2)新關(guān)聯(lián)規(guī)則挖掘方法在Web挖掘中的應(yīng)用將提出的基于粗糙集和單事務(wù)項組合的關(guān)聯(lián)規(guī)則挖掘方法應(yīng)用在Web挖掘中,對log日志進行挖掘,分析用戶的瀏覽行為挖掘出頻繁訪問路徑,找出在服務(wù)器會話中最經(jīng)常一起出現(xiàn)的頁面。挖掘所得到的規(guī)則可以幫助網(wǎng)站設(shè)計者重新組織和設(shè)計Web站點的結(jié)構(gòu),也可以作為啟發(fā)式信息用于緩存中的頁面預(yù)取,減少用戶的下載延遲,縮短用戶在網(wǎng)絡(luò)上的訪問延遲,還可以更好的
6、給用戶提供推薦服務(wù)。關(guān)鍵詞:粗糙集;單事務(wù)項組合;關(guān)聯(lián)規(guī)則;Web挖掘IIAbstractDataMiningisanewinformationtechnologythathasbeendevelopedwiththetechnologyofDatabaseandArtificialIntelligence,whichintegratesofDatabase,AIandStatisticsandetc.Ittriestoextracttheunknown,effectiveandusefulknowledgefromdatabase.
7、WebMiningisthetraditionalDataMiningtechnologyapplicationusedinweb,whichcanextractuser’sbrowseandfindtherelativewebpagesfromdata(suchasweblog,webpagecontent)onweb.WebUsageMiningmainlyprocessesandanalysestheweblogdatawhichisgenerallyredundancy.Associationrulesisanimportan
8、tareaofWebMining.Inordertofindoutthehiddencorrelationamongthedata,theconceptofassociationruleswasintroducedint