北京大學(xué)博士研究生學(xué)位論文

ID:9826607

大小:1.72 MB

頁(yè)數(shù):101頁(yè)

時(shí)間:2018-05-11

北京大學(xué)博士研究生學(xué)位論文_第1頁(yè)
北京大學(xué)博士研究生學(xué)位論文_第2頁(yè)
北京大學(xué)博士研究生學(xué)位論文_第3頁(yè)
北京大學(xué)博士研究生學(xué)位論文_第4頁(yè)
北京大學(xué)博士研究生學(xué)位論文_第5頁(yè)
資源描述:

《北京大學(xué)博士研究生學(xué)位論文》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、北京大學(xué)博士研究生學(xué)位論文題目:中文網(wǎng)頁(yè)自動(dòng)分類技術(shù)研究及其在搜索引擎中的應(yīng)用姓名:馮是聰學(xué)號(hào):10008826院系:計(jì)算機(jī)科學(xué)技術(shù)系專業(yè):計(jì)算機(jī)軟件與理論研究方向:計(jì)算機(jī)網(wǎng)絡(luò)與分布式系統(tǒng)導(dǎo)師:李曉明教授2003年5月AStudyontheTechnologyofChineseWebPageAutomaticCategorizationandItsApplicationtoSearchEngineDissertationSubmittedtoPekingUniversityinpartialfulfillmentoftherequirementforthedegreeo

2、fDoctorofPhilosophyByShi-congFeng(ComputerScienceandTechnology)DissertationSupervisor:ProfessorXiaomingLIMAY,2003聲明任何收存和保管本論文各種版本的單位和個(gè)人,未經(jīng)本論文作者授權(quán),不得將本論文轉(zhuǎn)借他人并復(fù)印、抄錄、拍照、或以任何方式傳播。否則,引起有礙作者著作權(quán)益之問題,將可能承擔(dān)法律責(zé)任。北京大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其它個(gè)人或集體已經(jīng)發(fā)

3、表或撰寫過的作品成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:2003年6月8日摘要摘要為了能夠有效地組織和分析海量的Web信息資源,幫助用戶迅速地獲取其所需要的知識(shí)和信息,人們希望能夠按照其內(nèi)容實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的自動(dòng)分類。Web的迅猛發(fā)展為文檔自動(dòng)分類技術(shù)提供了一個(gè)前所未有的實(shí)驗(yàn)環(huán)境和應(yīng)用平臺(tái),同時(shí)也帶來了新的挑戰(zhàn),需要在傳統(tǒng)的技術(shù)基礎(chǔ)之上,開展針對(duì)Web網(wǎng)頁(yè)特性的研究工作。本文對(duì)中文網(wǎng)頁(yè)自動(dòng)分類技術(shù)這一具有重要理論意義和廣闊應(yīng)用前景的課題進(jìn)行了研究和探索,主要的研究成果有:⑴影響分類

4、器性能的關(guān)鍵因素的定量分析針對(duì)影響分類器性能的兩個(gè)基本指標(biāo)(分類質(zhì)量和分類效率)及其相互關(guān)系,本文從系統(tǒng)的角度出發(fā),綜合地考慮了影響分類器性能的各種關(guān)鍵因素,并且通過定量地分析這些因素,提出了一種新的中文網(wǎng)頁(yè)分類器的設(shè)計(jì)方案。實(shí)驗(yàn)結(jié)果表明,應(yīng)用該方案設(shè)計(jì)實(shí)現(xiàn)的中文網(wǎng)頁(yè)分類器不僅具有較高的分類質(zhì)量,而且同時(shí)具有較高的分類效率,滿足了處理大規(guī)模中文網(wǎng)頁(yè)的要求。⑵中文網(wǎng)頁(yè)內(nèi)“噪音”的自動(dòng)清除同普通文檔相比,網(wǎng)頁(yè)的設(shè)計(jì)比較隨意,通常都包含大量“噪音”,這些“噪音”影響了網(wǎng)頁(yè)分類的質(zhì)量。為此,本文提出了一種自動(dòng)從中文網(wǎng)頁(yè)中自動(dòng)清除“噪音”的方法。該方法通過利用中文網(wǎng)頁(yè)的結(jié)構(gòu)信息和

5、內(nèi)容信息,并結(jié)合中文網(wǎng)頁(yè)自動(dòng)分類技術(shù),實(shí)現(xiàn)了自動(dòng)從中文網(wǎng)頁(yè)中自動(dòng)清除“噪音”。實(shí)驗(yàn)結(jié)果表明,該方法不僅可以有效地從中文網(wǎng)頁(yè)中自動(dòng)清除“噪音”,而且,還可以有效地改進(jìn)中文網(wǎng)頁(yè)分類器的分類質(zhì)量。⑶從搜索引擎日志中學(xué)習(xí)新詞44摘要針對(duì)直接從專業(yè)語(yǔ)料庫(kù)中學(xué)習(xí)新詞所面臨的困難,本文提出了一種從搜索引擎日志中學(xué)習(xí)新詞的方法。同傳統(tǒng)的方法相比,該方法具有學(xué)習(xí)效率和準(zhǔn)確率高、不受領(lǐng)域的局限、實(shí)現(xiàn)簡(jiǎn)單、易于推廣等優(yōu)點(diǎn)。該方法的基本思想是,根據(jù)用戶查詢?cè)~的長(zhǎng)度分布特性和頻度分布特性以及分詞系統(tǒng)的先驗(yàn)知識(shí),從所有漢字組合模式中盡可能地排除無效的組合模式,從而提高了學(xué)習(xí)新詞的效率和準(zhǔn)確性。實(shí)驗(yàn)

6、結(jié)果表明,該方法不僅可以有效地從搜索引擎日志中學(xué)習(xí)新詞,為新詞的自動(dòng)學(xué)習(xí)提供了一種新的思路,而且,通過不斷擴(kuò)大分詞字典的規(guī)模,還可以有效地改進(jìn)網(wǎng)頁(yè)分類質(zhì)量。⑷應(yīng)用中文網(wǎng)頁(yè)的自動(dòng)分類技術(shù),在“自動(dòng)式”搜索引擎“天網(wǎng)”系統(tǒng)中同時(shí)提供目錄導(dǎo)航服務(wù)為了提高搜索引擎的查準(zhǔn)率,幫助用戶快速地定位其感興趣的網(wǎng)頁(yè),本文應(yīng)用中文網(wǎng)頁(yè)自動(dòng)分類技術(shù),在“自動(dòng)式”搜索引擎系統(tǒng)中實(shí)現(xiàn)了目錄導(dǎo)航服務(wù)。這種同時(shí)具有目錄導(dǎo)航功能的“自動(dòng)式”搜索引擎系統(tǒng),不僅能夠維護(hù)大規(guī)模的網(wǎng)頁(yè),而且具有較高的查準(zhǔn)率。關(guān)鍵詞:搜索引擎,Web挖掘,中文網(wǎng)頁(yè)自動(dòng)分類,定量分析,噪音清除,新詞學(xué)習(xí),目錄導(dǎo)航44Abstra

7、ctAbstractToeffectivelyorganizeandanalyzemassiveWebinformationresourceandhelpuserstopromptlygetknowledgeandinformationtheyneed,itneedstoimplementWebpagesautomaticcategorizationbytheircontents.ThepromptdevelopmentofWebnotonlyprovidesanunprecedentedexperimentenvironmentanda

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。
关闭