資源描述:
《北京大學(xué)博士研究生學(xué)位論文》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、北京大學(xué)博士研究生學(xué)位論文題目:中文網(wǎng)頁(yè)自動(dòng)分類技術(shù)研究及其在搜索引擎中的應(yīng)用姓名:馮是聰學(xué)號(hào):10008826院系:計(jì)算機(jī)科學(xué)技術(shù)系專業(yè):計(jì)算機(jī)軟件與理論研究方向:計(jì)算機(jī)網(wǎng)絡(luò)與分布式系統(tǒng)導(dǎo)師:李曉明教授2003年5月AStudyontheTechnologyofChineseWebPageAutomaticCategorizationandItsApplicationtoSearchEngineDissertationSubmittedtoPekingUniversityinpartialfulfillmentoftherequirementforthedegreeo
2、fDoctorofPhilosophyByShi-congFeng(ComputerScienceandTechnology)DissertationSupervisor:ProfessorXiaomingLIMAY,2003聲明任何收存和保管本論文各種版本的單位和個(gè)人,未經(jīng)本論文作者授權(quán),不得將本論文轉(zhuǎn)借他人并復(fù)印、抄錄、拍照、或以任何方式傳播。否則,引起有礙作者著作權(quán)益之問題,將可能承擔(dān)法律責(zé)任。北京大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其它個(gè)人或集體已經(jīng)發(fā)
3、表或撰寫過的作品成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:2003年6月8日摘要摘要為了能夠有效地組織和分析海量的Web信息資源,幫助用戶迅速地獲取其所需要的知識(shí)和信息,人們希望能夠按照其內(nèi)容實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的自動(dòng)分類。Web的迅猛發(fā)展為文檔自動(dòng)分類技術(shù)提供了一個(gè)前所未有的實(shí)驗(yàn)環(huán)境和應(yīng)用平臺(tái),同時(shí)也帶來了新的挑戰(zhàn),需要在傳統(tǒng)的技術(shù)基礎(chǔ)之上,開展針對(duì)Web網(wǎng)頁(yè)特性的研究工作。本文對(duì)中文網(wǎng)頁(yè)自動(dòng)分類技術(shù)這一具有重要理論意義和廣闊應(yīng)用前景的課題進(jìn)行了研究和探索,主要的研究成果有:⑴影響分類
4、器性能的關(guān)鍵因素的定量分析針對(duì)影響分類器性能的兩個(gè)基本指標(biāo)(分類質(zhì)量和分類效率)及其相互關(guān)系,本文從系統(tǒng)的角度出發(fā),綜合地考慮了影響分類器性能的各種關(guān)鍵因素,并且通過定量地分析這些因素,提出了一種新的中文網(wǎng)頁(yè)分類器的設(shè)計(jì)方案。實(shí)驗(yàn)結(jié)果表明,應(yīng)用該方案設(shè)計(jì)實(shí)現(xiàn)的中文網(wǎng)頁(yè)分類器不僅具有較高的分類質(zhì)量,而且同時(shí)具有較高的分類效率,滿足了處理大規(guī)模中文網(wǎng)頁(yè)的要求。⑵中文網(wǎng)頁(yè)內(nèi)“噪音”的自動(dòng)清除同普通文檔相比,網(wǎng)頁(yè)的設(shè)計(jì)比較隨意,通常都包含大量“噪音”,這些“噪音”影響了網(wǎng)頁(yè)分類的質(zhì)量。為此,本文提出了一種自動(dòng)從中文網(wǎng)頁(yè)中自動(dòng)清除“噪音”的方法。該方法通過利用中文網(wǎng)頁(yè)的結(jié)構(gòu)信息和
5、內(nèi)容信息,并結(jié)合中文網(wǎng)頁(yè)自動(dòng)分類技術(shù),實(shí)現(xiàn)了自動(dòng)從中文網(wǎng)頁(yè)中自動(dòng)清除“噪音”。實(shí)驗(yàn)結(jié)果表明,該方法不僅可以有效地從中文網(wǎng)頁(yè)中自動(dòng)清除“噪音”,而且,還可以有效地改進(jìn)中文網(wǎng)頁(yè)分類器的分類質(zhì)量。⑶從搜索引擎日志中學(xué)習(xí)新詞44摘要針對(duì)直接從專業(yè)語(yǔ)料庫(kù)中學(xué)習(xí)新詞所面臨的困難,本文提出了一種從搜索引擎日志中學(xué)習(xí)新詞的方法。同傳統(tǒng)的方法相比,該方法具有學(xué)習(xí)效率和準(zhǔn)確率高、不受領(lǐng)域的局限、實(shí)現(xiàn)簡(jiǎn)單、易于推廣等優(yōu)點(diǎn)。該方法的基本思想是,根據(jù)用戶查詢?cè)~的長(zhǎng)度分布特性和頻度分布特性以及分詞系統(tǒng)的先驗(yàn)知識(shí),從所有漢字組合模式中盡可能地排除無效的組合模式,從而提高了學(xué)習(xí)新詞的效率和準(zhǔn)確性。實(shí)驗(yàn)
6、結(jié)果表明,該方法不僅可以有效地從搜索引擎日志中學(xué)習(xí)新詞,為新詞的自動(dòng)學(xué)習(xí)提供了一種新的思路,而且,通過不斷擴(kuò)大分詞字典的規(guī)模,還可以有效地改進(jìn)網(wǎng)頁(yè)分類質(zhì)量。⑷應(yīng)用中文網(wǎng)頁(yè)的自動(dòng)分類技術(shù),在“自動(dòng)式”搜索引擎“天網(wǎng)”系統(tǒng)中同時(shí)提供目錄導(dǎo)航服務(wù)為了提高搜索引擎的查準(zhǔn)率,幫助用戶快速地定位其感興趣的網(wǎng)頁(yè),本文應(yīng)用中文網(wǎng)頁(yè)自動(dòng)分類技術(shù),在“自動(dòng)式”搜索引擎系統(tǒng)中實(shí)現(xiàn)了目錄導(dǎo)航服務(wù)。這種同時(shí)具有目錄導(dǎo)航功能的“自動(dòng)式”搜索引擎系統(tǒng),不僅能夠維護(hù)大規(guī)模的網(wǎng)頁(yè),而且具有較高的查準(zhǔn)率。關(guān)鍵詞:搜索引擎,Web挖掘,中文網(wǎng)頁(yè)自動(dòng)分類,定量分析,噪音清除,新詞學(xué)習(xí),目錄導(dǎo)航44Abstra
7、ctAbstractToeffectivelyorganizeandanalyzemassiveWebinformationresourceandhelpuserstopromptlygetknowledgeandinformationtheyneed,itneedstoimplementWebpagesautomaticcategorizationbytheircontents.ThepromptdevelopmentofWebnotonlyprovidesanunprecedentedexperimentenvironmentanda