資源描述:
《關聯(lián)規(guī)則挖掘算法及其在web挖掘上應用的研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、哈爾濱工程大學碩士學位論文關聯(lián)規(guī)則挖掘算法及其在Web挖掘上應用的研究姓名:王永利申請學位級別:碩士專業(yè):計算機軟件與理論指導教師:劉杰20030201哈爾濱工程火學碩士學位論文摘要由于應用性的數(shù)據(jù)的爆炸式增長(如商業(yè)分析),及計算機的軟硬件技術的發(fā)展完備,數(shù)據(jù)挖掘已經成為近幾年來應用最廣泛的分析數(shù)據(jù)的工具。挖掘重要數(shù)據(jù)仍然需要配合許多其他領域的技術才能得到完善有效的結果,其中包括機器學習,人工智能,統(tǒng)計學原理,數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)可視化等。然而目前大多數(shù)挖掘關聯(lián)規(guī)則的算法往往必需多次掃描事務數(shù)據(jù)庫才能達到要求的目標,這樣重復性的數(shù)據(jù)庫存取動作將會導致過
2、多的執(zhí)行時間浪費在I/O動作上另外在頻繁集生成規(guī)則時現(xiàn)有的算法沒有考慮到規(guī)則的大量冗余,為了解決這個問題本文提出了一個不需要生成候選集同時有效的去除生成規(guī)則時產生大量冗余的算法QAIS,來提高關聯(lián)規(guī)則生成的速度,并且在此算法基礎上提出了新穎的關聯(lián)規(guī)則增量更新算法AIU,通過應用合成數(shù)掘驗證了QAIS/AIU算法的有效性,由試驗結果來看這個方法確實能更有效且準確地獲得事務數(shù)據(jù)庫的關聯(lián)規(guī)則,尤其適合挖掘超大數(shù)據(jù)庫中高支持度下長模式的挖掘。然后論文介紹了關聯(lián)規(guī)則的一種擴展一時間序列模式挖掘方面的算法,給出了Web同志文件挖掘的高效、新穎的改進算法,并用實驗
3、驗證了此種方法的有效性。論文的最后討論了關聯(lián)規(guī)則挖掘領域面臨的幾個問題。關鍵詞:數(shù)據(jù)挖掘:知識發(fā)現(xiàn);關聯(lián)規(guī)則;增量更新;時間序列模式;Web挖掘哈爾濱工群人學碩士學位論文ABSTRACTDatamininghasbeenbecomingmoreandmorepopularinthepastfewyearsduetOthegrowingdemandsofdatabaseapplicationandtheadvancesincomputertechnology.DataMiningmergesmanyimportantresearchfieldsincl
4、udingmachinelearning,artificialintelligent,statistics,knowledge—basesystemsanddatavisualization,etc.However,currentalgorithmsproposedfordatAminingofassociationrulesrequireseveralpassesovertheanalyzeddatabaseTheI/0overheadinscanningthelargedatabasecanbeextremelyhigh。Anef蠡ciental
5、gorithmQAISiSproposedthatusestheef五cientmethodtoreducedatabaseaccessactivity,andpresentanovelalgorithmAIUbasedonthisalgorithm.itiSfitforminingassociationrulesandincrementalupdating.ItiSespeciallyeffectiveinVLDB,mininglongpatterns,andhighsupport.ThePerformanceofQAIS/AIUiSverifie
6、donthebasisofsyntheticdatajexperimentsshowthattheproposedalgorithmcanmineassociationrulesmoreefficientlybynotgeneratingcandidateitemsetsandreducingtheredundancyol、fi'equentitemsetswhilegeneratingassociationrules.Andthen,aextentofassociationrules—TimeSeriesPatterniSdiscussed,and
7、anefficientimprovedalgorithmofwebminingispresented.ThePerformanceofalgorithmsiSverifledonthebasisofsyntheticdatatoo.Atlast,theproblemsfacedintheminingassociationrulesfieldarediscussedinthepaper.Keywords:DataMining,KDD,AssociationRules,IncrementUpdating,TimeSeriesPattern,WebMini
8、ng+哈爾濱T程大學碩士學位論文1.1知識發(fā)現(xiàn)概述第1章緒論近年來由于計算機科學與技術的快速發(fā)展,加速了信息