資源描述:
《基于分類樹的增量web數(shù)據(jù)挖掘系統(tǒng)》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、分類號學號M201072405學校代碼10487密級碩士學位論文基于分類樹的增量Web數(shù)據(jù)挖掘系統(tǒng)學位申請人:王士健學科專業(yè):計算機系統(tǒng)結構指導教師:魯宏偉答辯日期:2013年1月21日AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringIncrementalWebDataMiningSystemBasedonClassificationTreeCandidate:WangShijianMajor:ComputerArchitectureSupervisor:LuHong
2、weiHuazhongUniversityofScienceandTechnologyWuhan430074,P.R.ChinaJan,2013獨創(chuàng)性聲明本人聲明所呈交的學位論文是我個人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除文中已經(jīng)標明引用的內容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律結果由本人承擔。學位論文作者簽名:日期:年月日學位論文版權使用授權書本學位論文作者完全了解學校有關保留、使用學位論文的規(guī)定,即:學校有權保留并向國家有關部門或機構送交論文的復印件和電子
3、版,允許論文被查閱和借閱。本人授權華中科技大學可以將本學位論文的全部或部分內容編入有關數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。保密□,在年解密后適用本授權書。本論文屬于不保密□。(請在以上方框內打“√”)學位論文作者簽名:指導教師簽名:日期:年月日日期:年月日華中科技大學碩士學位論文摘要隨著互聯(lián)網(wǎng)的飛速發(fā)展和日益普及,互聯(lián)網(wǎng)上的信息和資源呈幾何倍數(shù)爆炸式的增長,面對如此龐大的資源,如何有效利用互聯(lián)網(wǎng)的公共資源確實一個難題。Web信息和資源大多以HTML(HypertextMarkupLanguage)文檔形式存在。HTML文檔的性質決定了這些信息和資源無法直
4、接被使用,那么如何有效地、高效的挖掘互聯(lián)網(wǎng)上資源就是該系統(tǒng)重點要解決的問題。為了高效地將影視資源網(wǎng)站中的影視資源完全挖掘出來,并且保存到結構化數(shù)據(jù)庫中,Web數(shù)據(jù)挖掘包含三個重要的部分:分類樹挖掘,資源列表挖掘,增量挖掘判斷。首先是挖掘Web站點的分類結構,然后管理員通過管理系統(tǒng)進行分類映射,對需要挖掘的分類進行管理。分類樹挖掘是整個系統(tǒng)的主干,后續(xù)的挖掘都按照這個主干進行。資源列表的挖掘,通過挖掘到的分類樹獲取分類的入口地址,以頁為單位獲取分類下的資源列表集合。增量挖掘判斷,從資源列表中循環(huán)解析資源,并從中獲取資源的更新時間和ID(IDentity),通過增量判斷算法,判斷該資源是否有更
5、新,如果為新增或有更新資源,則繼續(xù)挖掘該資源的詳情頁面。在系統(tǒng)實現(xiàn)時,結合具體的例子,多次試驗,基于分類樹從一個影視資源網(wǎng)站,深度、增量挖掘該網(wǎng)站上的所有的影視資源,試驗效果良好,效率非常高。關鍵詞:數(shù)據(jù)挖掘,分類樹,增量挖掘,插件模式I華中科技大學碩士學位論文AbstractWiththerapiddevelopmentoftheInternetandtheincreasingpopularityofinformationandresourcesontheInternetaregeometricallyexplosivegrowing.Facedwithsuchahugeamountof
6、resources,howtoeffectivelyusethepublicresourcesonInternetisindeedaproblem.ThemostWebinformationandresourcesexistintheformisHTMLdocument.ThenatureofHTMLdocumentdeterminethattheseinformationandresourcescannotbeuseddirectly,thenhoweffectiveminingdataandresourcesontheInternetisthefocusofthisprojecttos
7、olvetheproblem.ThisthesisstudieshowtoefficientlymineresourcesinthetargetWebsite,thensavedtoastructureddatabase.ThisWebinformationminingsystemcontainsthefollowingthreeimportantparts:classificationtreemining,resour