資源描述:
《基于分類樹(shù)的增量web數(shù)據(jù)挖掘系統(tǒng)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、分類號(hào)學(xué)號(hào)M201072405學(xué)校代碼10487密級(jí)碩士學(xué)位論文基于分類樹(shù)的增量Web數(shù)據(jù)挖掘系統(tǒng)學(xué)位申請(qǐng)人:王士健學(xué)科專業(yè):計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)指導(dǎo)教師:魯宏偉答辯日期:2013年1月21日AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringIncrementalWebDataMiningSystemBasedonClassificationTreeCandidate:WangShijianMajor:ComputerArchitectureSupervisor:LuHong
2、weiHuazhongUniversityofScienceandTechnologyWuhan430074,P.R.ChinaJan,2013獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除文中已經(jīng)標(biāo)明引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過(guò)的研究成果。對(duì)本文的研究做出貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:年月日學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子
3、版,允許論文被查閱和借閱。本人授權(quán)華中科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。保密□,在年解密后適用本授權(quán)書(shū)。本論文屬于不保密□。(請(qǐng)?jiān)谝陨戏娇騼?nèi)打“√”)學(xué)位論文作者簽名:指導(dǎo)教師簽名:日期:年月日日期:年月日華中科技大學(xué)碩士學(xué)位論文摘要隨著互聯(lián)網(wǎng)的飛速發(fā)展和日益普及,互聯(lián)網(wǎng)上的信息和資源呈幾何倍數(shù)爆炸式的增長(zhǎng),面對(duì)如此龐大的資源,如何有效利用互聯(lián)網(wǎng)的公共資源確實(shí)一個(gè)難題。Web信息和資源大多以HTML(HypertextMarkupLanguage)文檔形式存在。HTML文檔的性質(zhì)決定了這些信息和資源無(wú)法直
4、接被使用,那么如何有效地、高效的挖掘互聯(lián)網(wǎng)上資源就是該系統(tǒng)重點(diǎn)要解決的問(wèn)題。為了高效地將影視資源網(wǎng)站中的影視資源完全挖掘出來(lái),并且保存到結(jié)構(gòu)化數(shù)據(jù)庫(kù)中,Web數(shù)據(jù)挖掘包含三個(gè)重要的部分:分類樹(shù)挖掘,資源列表挖掘,增量挖掘判斷。首先是挖掘Web站點(diǎn)的分類結(jié)構(gòu),然后管理員通過(guò)管理系統(tǒng)進(jìn)行分類映射,對(duì)需要挖掘的分類進(jìn)行管理。分類樹(shù)挖掘是整個(gè)系統(tǒng)的主干,后續(xù)的挖掘都按照這個(gè)主干進(jìn)行。資源列表的挖掘,通過(guò)挖掘到的分類樹(shù)獲取分類的入口地址,以頁(yè)為單位獲取分類下的資源列表集合。增量挖掘判斷,從資源列表中循環(huán)解析資源,并從中獲取資源的更新時(shí)間和ID(IDentity),通過(guò)增量判斷算法,判斷該資源是否有更
5、新,如果為新增或有更新資源,則繼續(xù)挖掘該資源的詳情頁(yè)面。在系統(tǒng)實(shí)現(xiàn)時(shí),結(jié)合具體的例子,多次試驗(yàn),基于分類樹(shù)從一個(gè)影視資源網(wǎng)站,深度、增量挖掘該網(wǎng)站上的所有的影視資源,試驗(yàn)效果良好,效率非常高。關(guān)鍵詞:數(shù)據(jù)挖掘,分類樹(shù),增量挖掘,插件模式I華中科技大學(xué)碩士學(xué)位論文AbstractWiththerapiddevelopmentoftheInternetandtheincreasingpopularityofinformationandresourcesontheInternetaregeometricallyexplosivegrowing.Facedwithsuchahugeamountof
6、resources,howtoeffectivelyusethepublicresourcesonInternetisindeedaproblem.ThemostWebinformationandresourcesexistintheformisHTMLdocument.ThenatureofHTMLdocumentdeterminethattheseinformationandresourcescannotbeuseddirectly,thenhoweffectiveminingdataandresourcesontheInternetisthefocusofthisprojecttos
7、olvetheproblem.ThisthesisstudieshowtoefficientlymineresourcesinthetargetWebsite,thensavedtoastructureddatabase.ThisWebinformationminingsystemcontainsthefollowingthreeimportantparts:classificationtreemining,resour