資源描述:
《試析基于web日志的用戶訪問序列模式研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、東北師范大學(xué)碩士學(xué)位論文基于Web日志的用戶訪問序列模式研究姓名:左丹申請學(xué)位級別:碩士專業(yè):計算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:姜華20090501摘要隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們進(jìn)行信息交流和信息處理的有效平臺,它存儲著海量的數(shù)據(jù)。由于龐大的信息量,對于每個用戶來說,如何能夠及時地發(fā)現(xiàn)有用的信息則變得越來越困難。為了解決上述問題,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于互聯(lián)網(wǎng),構(gòu)成了一個新研究領(lǐng)域一卅eb挖掘(WebMining)。Web挖掘通常分為三類,Web使用挖掘是重要的應(yīng)用研究方向之一,其目的是找出網(wǎng)站用戶的訪問模式,對優(yōu)化站點結(jié)構(gòu)和為用戶提供個性化服
2、務(wù)具有重要的意義。本文主要研究了基于Web曰志的用戶訪問序列模式挖掘,為了避免用戶訪問序列挖掘過程中產(chǎn)生巨大的候選模式,提出了一種新的用戶訪問序列模式挖掘算法UAP-miner(UserAccessPatternmining)。該算法簡化了挖掘過程中支持度的計算和候選模式的生成操作。首先使用UAP-tree(useraccesspatterntree)來記錄用戶訪問序列和它的計數(shù),避免冗長的支持度計算。構(gòu)造出UAP—tree后,所有剩下的挖掘工作都在UAP-tree上進(jìn)行,只需要掃描UAP-tree相關(guān)的子樹,不再需要訪問原始的用戶訪問序列數(shù)據(jù)庫。然后
3、提出一個高效的算法,根據(jù)用戶當(dāng)前的訪問序列從UAP-tree中發(fā)現(xiàn)頻繁用戶訪問模式,該算法在挖掘過程中不會產(chǎn)生任何候選模式,所以具有較好的執(zhí)行效率。最后結(jié)合具體的實例,對算法進(jìn)行了驗證。關(guān)鍵詞:Web挖掘;Web使用挖掘;用戶訪問序列模式AstheIntemetgrows,communicateandmanage.information,ithasbecomeeveryuseLAbstractWebbecameaneffectiveplatformonwhichpeopleAmassofdataisstoredinit.Becauseofenormou
4、smoreandmoredifficulttodiscoverusefulinformationtOInordertosolvethatproblem,applicationofdataminingtechniquestoInternet,Webminingemerges.Webusagesminingisoneofthemostimportantresearchdirectionsinthewebminingresearchfield.Theaimofitistofindoutusertraversalpatternsofwebsites.Itwil
5、lhelpUStOimprovethesite’SstructureandprovidethebetterservicetotheUSers.Thispaperresearcheshowtominetheusertraversalpatternsbasedonweblog.Toavoidthehugeofcandidatepatternsduringuseraccesspatternmining,wepresentanewalgorithmUAP。miner(UserAccessPatternmining)foruseraccesspatternmin
6、ing.Thealgorithmfacilitatesthetedioussupportcountingandcandidategeneratingoperationsintheminingprocedure.UAP·tree(useraccesspatterntree)isusedtoregisteruseraCCeSSsequenceandcorrespondingcounts,SOthatthetedioussupportcountingcanbeavoided.OncetheUAP-treeisbuilt,alltheremainingmini
7、ngprocessingisbasedontheUAP.tree.Theoriginalaccessdatabaseisnotneededanymore;allefficientrecursivealgorithmisproposedtofinduseraCCeSSpatternfromUAP.tree.Nocandidategenerationisrequiredintheminingprocedure.Intheend,·thealgorithmistovalidateusingthetrialdata.Keywords:Webmining;Web
8、usagemining;useraccesssequencepatternU獨創(chuàng)性聲明本人聲明