資源描述:
《北京大學(xué)博士研究生學(xué)位論文》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、北京大學(xué)博士研究生學(xué)位論文題目:中文網(wǎng)頁自動分類技術(shù)研究及其在搜索引擎中的應(yīng)用姓名:馮是聰學(xué)號:10008826院系:計算機(jī)科學(xué)技術(shù)系專業(yè):計算機(jī)軟件與理論研究方向:計算機(jī)網(wǎng)絡(luò)與分布式系統(tǒng)導(dǎo)師:李曉明教授2003年5月AStudyontheTechnologyofChineseWebPageAutomaticCategorizationandItsApplicationtoSearchEngineDissertationSubmittedtoPekingUniversityinpartialfulfillmentoftherequirementforthedegreeo
2、fDoctorofPhilosophyByShi-congFeng(ComputerScienceandTechnology)DissertationSupervisor:ProfessorXiaomingLIMAY,2003聲明任何收存和保管本論文各種版本的單位和個人,未經(jīng)本論文作者授權(quán),不得將本論文轉(zhuǎn)借他人并復(fù)印、抄錄、拍照、或以任何方式傳播。否則,引起有礙作者著作權(quán)益之問題,將可能承擔(dān)法律責(zé)任。北京大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其它個人或集體已經(jīng)發(fā)
3、表或撰寫過的作品成果。對本文的研究做出重要貢獻(xiàn)的個人和集體,均已在文中以明確方式標(biāo)明。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:2003年6月8日摘要摘要為了能夠有效地組織和分析海量的Web信息資源,幫助用戶迅速地獲取其所需要的知識和信息,人們希望能夠按照其內(nèi)容實現(xiàn)對網(wǎng)頁的自動分類。Web的迅猛發(fā)展為文檔自動分類技術(shù)提供了一個前所未有的實驗環(huán)境和應(yīng)用平臺,同時也帶來了新的挑戰(zhàn),需要在傳統(tǒng)的技術(shù)基礎(chǔ)之上,開展針對Web網(wǎng)頁特性的研究工作。本文對中文網(wǎng)頁自動分類技術(shù)這一具有重要理論意義和廣闊應(yīng)用前景的課題進(jìn)行了研究和探索,主要的研究成果有:⑴影響分類
4、器性能的關(guān)鍵因素的定量分析針對影響分類器性能的兩個基本指標(biāo)(分類質(zhì)量和分類效率)及其相互關(guān)系,本文從系統(tǒng)的角度出發(fā),綜合地考慮了影響分類器性能的各種關(guān)鍵因素,并且通過定量地分析這些因素,提出了一種新的中文網(wǎng)頁分類器的設(shè)計方案。實驗結(jié)果表明,應(yīng)用該方案設(shè)計實現(xiàn)的中文網(wǎng)頁分類器不僅具有較高的分類質(zhì)量,而且同時具有較高的分類效率,滿足了處理大規(guī)模中文網(wǎng)頁的要求。⑵中文網(wǎng)頁內(nèi)“噪音”的自動清除同普通文檔相比,網(wǎng)頁的設(shè)計比較隨意,通常都包含大量“噪音”,這些“噪音”影響了網(wǎng)頁分類的質(zhì)量。為此,本文提出了一種自動從中文網(wǎng)頁中自動清除“噪音”的方法。該方法通過利用中文網(wǎng)頁的結(jié)構(gòu)信息和
5、內(nèi)容信息,并結(jié)合中文網(wǎng)頁自動分類技術(shù),實現(xiàn)了自動從中文網(wǎng)頁中自動清除“噪音”。實驗結(jié)果表明,該方法不僅可以有效地從中文網(wǎng)頁中自動清除“噪音”,而且,還可以有效地改進(jìn)中文網(wǎng)頁分類器的分類質(zhì)量。⑶從搜索引擎日志中學(xué)習(xí)新詞44摘要針對直接從專業(yè)語料庫中學(xué)習(xí)新詞所面臨的困難,本文提出了一種從搜索引擎日志中學(xué)習(xí)新詞的方法。同傳統(tǒng)的方法相比,該方法具有學(xué)習(xí)效率和準(zhǔn)確率高、不受領(lǐng)域的局限、實現(xiàn)簡單、易于推廣等優(yōu)點。該方法的基本思想是,根據(jù)用戶查詢詞的長度分布特性和頻度分布特性以及分詞系統(tǒng)的先驗知識,從所有漢字組合模式中盡可能地排除無效的組合模式,從而提高了學(xué)習(xí)新詞的效率和準(zhǔn)確性。實驗
6、結(jié)果表明,該方法不僅可以有效地從搜索引擎日志中學(xué)習(xí)新詞,為新詞的自動學(xué)習(xí)提供了一種新的思路,而且,通過不斷擴(kuò)大分詞字典的規(guī)模,還可以有效地改進(jìn)網(wǎng)頁分類質(zhì)量。⑷應(yīng)用中文網(wǎng)頁的自動分類技術(shù),在“自動式”搜索引擎“天網(wǎng)”系統(tǒng)中同時提供目錄導(dǎo)航服務(wù)為了提高搜索引擎的查準(zhǔn)率,幫助用戶快速地定位其感興趣的網(wǎng)頁,本文應(yīng)用中文網(wǎng)頁自動分類技術(shù),在“自動式”搜索引擎系統(tǒng)中實現(xiàn)了目錄導(dǎo)航服務(wù)。這種同時具有目錄導(dǎo)航功能的“自動式”搜索引擎系統(tǒng),不僅能夠維護(hù)大規(guī)模的網(wǎng)頁,而且具有較高的查準(zhǔn)率。關(guān)鍵詞:搜索引擎,Web挖掘,中文網(wǎng)頁自動分類,定量分析,噪音清除,新詞學(xué)習(xí),目錄導(dǎo)航44Abstra
7、ctAbstractToeffectivelyorganizeandanalyzemassiveWebinformationresourceandhelpuserstopromptlygetknowledgeandinformationtheyneed,itneedstoimplementWebpagesautomaticcategorizationbytheircontents.ThepromptdevelopmentofWebnotonlyprovidesanunprecedentedexperimentenvironmentanda