基于分類樹(shù)的增量web數(shù)據(jù)挖掘系統(tǒng)

基于分類樹(shù)的增量web數(shù)據(jù)挖掘系統(tǒng)

ID:32973347

大小:3.17 MB

頁(yè)數(shù):60頁(yè)

時(shí)間:2019-02-18

基于分類樹(shù)的增量web數(shù)據(jù)挖掘系統(tǒng)_第1頁(yè)
基于分類樹(shù)的增量web數(shù)據(jù)挖掘系統(tǒng)_第2頁(yè)
基于分類樹(shù)的增量web數(shù)據(jù)挖掘系統(tǒng)_第3頁(yè)
基于分類樹(shù)的增量web數(shù)據(jù)挖掘系統(tǒng)_第4頁(yè)
基于分類樹(shù)的增量web數(shù)據(jù)挖掘系統(tǒng)_第5頁(yè)
資源描述:

《基于分類樹(shù)的增量web數(shù)據(jù)挖掘系統(tǒng)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、分類號(hào)學(xué)號(hào)M201072405學(xué)校代碼10487密級(jí)碩士學(xué)位論文基于分類樹(shù)的增量Web數(shù)據(jù)挖掘系統(tǒng)學(xué)位申請(qǐng)人:王士健學(xué)科專業(yè):計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)指導(dǎo)教師:魯宏偉答辯日期:2013年1月21日AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringIncrementalWebDataMiningSystemBasedonClassificationTreeCandidate:WangShijianMajor:ComputerArchitectureSupervisor:LuHong

2、weiHuazhongUniversityofScienceandTechnologyWuhan430074,P.R.ChinaJan,2013獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除文中已經(jīng)標(biāo)明引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過(guò)的研究成果。對(duì)本文的研究做出貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:年月日學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子

3、版,允許論文被查閱和借閱。本人授權(quán)華中科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。保密□,在年解密后適用本授權(quán)書(shū)。本論文屬于不保密□。(請(qǐng)?jiān)谝陨戏娇騼?nèi)打“√”)學(xué)位論文作者簽名:指導(dǎo)教師簽名:日期:年月日日期:年月日華中科技大學(xué)碩士學(xué)位論文摘要隨著互聯(lián)網(wǎng)的飛速發(fā)展和日益普及,互聯(lián)網(wǎng)上的信息和資源呈幾何倍數(shù)爆炸式的增長(zhǎng),面對(duì)如此龐大的資源,如何有效利用互聯(lián)網(wǎng)的公共資源確實(shí)一個(gè)難題。Web信息和資源大多以HTML(HypertextMarkupLanguage)文檔形式存在。HTML文檔的性質(zhì)決定了這些信息和資源無(wú)法直

4、接被使用,那么如何有效地、高效的挖掘互聯(lián)網(wǎng)上資源就是該系統(tǒng)重點(diǎn)要解決的問(wèn)題。為了高效地將影視資源網(wǎng)站中的影視資源完全挖掘出來(lái),并且保存到結(jié)構(gòu)化數(shù)據(jù)庫(kù)中,Web數(shù)據(jù)挖掘包含三個(gè)重要的部分:分類樹(shù)挖掘,資源列表挖掘,增量挖掘判斷。首先是挖掘Web站點(diǎn)的分類結(jié)構(gòu),然后管理員通過(guò)管理系統(tǒng)進(jìn)行分類映射,對(duì)需要挖掘的分類進(jìn)行管理。分類樹(shù)挖掘是整個(gè)系統(tǒng)的主干,后續(xù)的挖掘都按照這個(gè)主干進(jìn)行。資源列表的挖掘,通過(guò)挖掘到的分類樹(shù)獲取分類的入口地址,以頁(yè)為單位獲取分類下的資源列表集合。增量挖掘判斷,從資源列表中循環(huán)解析資源,并從中獲取資源的更新時(shí)間和ID(IDentity),通過(guò)增量判斷算法,判斷該資源是否有更

5、新,如果為新增或有更新資源,則繼續(xù)挖掘該資源的詳情頁(yè)面。在系統(tǒng)實(shí)現(xiàn)時(shí),結(jié)合具體的例子,多次試驗(yàn),基于分類樹(shù)從一個(gè)影視資源網(wǎng)站,深度、增量挖掘該網(wǎng)站上的所有的影視資源,試驗(yàn)效果良好,效率非常高。關(guān)鍵詞:數(shù)據(jù)挖掘,分類樹(shù),增量挖掘,插件模式I華中科技大學(xué)碩士學(xué)位論文AbstractWiththerapiddevelopmentoftheInternetandtheincreasingpopularityofinformationandresourcesontheInternetaregeometricallyexplosivegrowing.Facedwithsuchahugeamountof

6、resources,howtoeffectivelyusethepublicresourcesonInternetisindeedaproblem.ThemostWebinformationandresourcesexistintheformisHTMLdocument.ThenatureofHTMLdocumentdeterminethattheseinformationandresourcescannotbeuseddirectly,thenhoweffectiveminingdataandresourcesontheInternetisthefocusofthisprojecttos

7、olvetheproblem.ThisthesisstudieshowtoefficientlymineresourcesinthetargetWebsite,thensavedtoastructureddatabase.ThisWebinformationminingsystemcontainsthefollowingthreeimportantparts:classificationtreemining,resour

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。