資源描述:
《博士研究生學(xué)位論文》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、博士研究生學(xué)位論文題目:網(wǎng)絡(luò)資源的名字特征及其在資源組織中的應(yīng)用研究姓名:陳翀d學(xué)號:10308852d院系:信息科學(xué)技術(shù)學(xué)院d專業(yè):計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)d研究方向:搜索引擎與網(wǎng)絡(luò)信息挖掘d導(dǎo)師姓名:李曉明教授d二零零八年五月博士研究生學(xué)位論文題目:網(wǎng)絡(luò)資源的名字特征及其在資源組織中的應(yīng)用研究姓名:陳翀d學(xué)號:10308852d院系:信息科學(xué)技術(shù)學(xué)院d專業(yè):計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)d研究方向:搜索引擎與網(wǎng)絡(luò)信息挖掘d導(dǎo)師姓名:李曉明教授d二零零八年五月OntheNameCharacteristicsofDigitalResourcesandTheirApplicationsinResourceOrganiza
2、tionDissertationSubmittedtoPekingUniversityinpartialfulfillmentoftherequirementforthedegreeofDoctorofPhilosophyinScienceChenChong(ComputerScienceandTechnology)DissertationSupervisor:ProfessorXiaomingLiMAY,2008版權(quán)聲明任何收存和保管本論文各種版本的單位和個(gè)人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不得隨意復(fù)制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔(dān)法律
3、責(zé)任。摘要本文中,網(wǎng)絡(luò)資源指在含義上相對獨(dú)立且完整的非網(wǎng)頁類互聯(lián)網(wǎng)信息資源,通常由一到多個(gè)文件按照一定的目錄結(jié)構(gòu)組織,常見于FTP服務(wù)器和P2P系統(tǒng)的節(jié)點(diǎn)中。它們廣泛分布在互聯(lián)網(wǎng)上,是網(wǎng)絡(luò)用戶所關(guān)心的重要對象。同時(shí),這些網(wǎng)絡(luò)資源不僅數(shù)量巨大,而且發(fā)布、傳播和共享都比較自由,呈現(xiàn)出“混亂”和“無序”的特點(diǎn)。廣泛收集并重新組織這類網(wǎng)絡(luò)資源,是許多應(yīng)用中的一項(xiàng)根本需求。在這項(xiàng)工作中,資源名稱是最基本的依據(jù);人們一方面需要根據(jù)名稱來理解得到的資源,另一方面也要通過對資源命名來標(biāo)識(shí)資源。本文首先考察各類網(wǎng)絡(luò)資源的命名狀況,研究其中蘊(yùn)含的用戶命名行為一般規(guī)律;進(jìn)而研究了如何從資源名中切分出語義片段的方法;
4、并考察了名字信息在資源自動(dòng)分類中的作用,分析分類性能的影響因素等問題。注意到網(wǎng)絡(luò)上存在著許多以目錄樹的形式組織得相當(dāng)好的資源集合,本文研究了依據(jù)目錄樹信息進(jìn)行資源整合的效率問題,并針對這類資源整合的任務(wù),設(shè)計(jì)了一個(gè)可擴(kuò)展性好的資源增量存儲(chǔ)與組織方案。作為對上述研究的應(yīng)用,實(shí)現(xiàn)了一個(gè)支持海量網(wǎng)絡(luò)資源存儲(chǔ)組織的庫藏系統(tǒng),并為相關(guān)領(lǐng)域的研究提供數(shù)據(jù)和系統(tǒng)平臺(tái)。本文主要貢獻(xiàn)包括:(1)考察網(wǎng)絡(luò)資源命名的無序狀況,分析用戶對資源命名行為的一般規(guī)律。通過考察總體與各類別的名字長度、字符構(gòu)成、片段頻度分布、文件后綴對資源類別的互信息、語義種類及位序關(guān)系等方面,分析資源的名字無序混亂表象及所蘊(yùn)含的規(guī)律。例如從
5、字符類型熵來看,資源名是用戶表達(dá)各種資源相關(guān)信息的渠道,而其中娛樂類資源名的字符類型熵大于工作學(xué)習(xí)類的資源名,這體現(xiàn)了用戶對娛樂內(nèi)容的融入感較強(qiáng),傾向于參與修改名字來反映自己的意見和評價(jià)。從符號的出現(xiàn)上看,用戶傾向于將多種意思通過顯式或隱式分隔信息濃縮在簡短的名字中。這些是本文后續(xù)名字切分、資源分類等工作的基礎(chǔ)。(2)基于錯(cuò)誤驅(qū)動(dòng)轉(zhuǎn)換學(xué)習(xí)思想和字符類型突變分割假設(shè),提出一種能對資源名按照語義信息切分、且不依賴于詞典的方法。這一研究也適用于其他具有多種文字符號混雜、濃縮表達(dá)多種語義類型特點(diǎn)的文本環(huán)境。該方法優(yōu)點(diǎn)是能充分利用上下文特征學(xué)習(xí),且不要求大規(guī)模訓(xùn)練數(shù)據(jù)。-122-例如給800個(gè)訓(xùn)練樣本,
6、得到的語義片段的切分精度為81%、召回率為83%。所得的切分結(jié)果有助于從混亂的原始命名狀態(tài)中獲取對資源描述有用的信息。(1)提出一種利用資源及其成員的名字所產(chǎn)生的特征進(jìn)行資源自動(dòng)分類的方法,研究了特征分布、概率估算、樣本數(shù)量等因素對分類性能的影響。發(fā)現(xiàn)大量低頻特征(例如只在一個(gè)資源中出現(xiàn)過)對分類正確率的貢獻(xiàn)在于幫助合理估算未觀測到的特征的概率;因此也得出在低頻特征占優(yōu)、且使用SimpleGood-Turing平滑策略下無需進(jìn)行特征選擇的推論。在使用所有特征情況下,總體分類正確率可達(dá)80%。還應(yīng)用該方法實(shí)現(xiàn)了一個(gè)資源半自動(dòng)分類工具,在人工給定資源粒度條件下,進(jìn)行資源分類的時(shí)間是基準(zhǔn)時(shí)間的45%
7、-50%。(2)針對原始質(zhì)量較好的資源集合,提出一種利用原始組織知識(shí)的目錄歸并模型整合資源,刻畫粗分類和精細(xì)檢查兩階段工作模式并評估模型效率。粗分類階段有精度損失,但完成任務(wù)的時(shí)間為基準(zhǔn)做法的1/2a(a為批量處理的資源數(shù),a≥1);精細(xì)檢查階段在第一階段基礎(chǔ)上進(jìn)行,能保證精度無損,且完成任務(wù)的時(shí)間約為基準(zhǔn)做法的1/2。(3)持續(xù)從互聯(lián)網(wǎng)收集、并運(yùn)用目錄歸并模式高效低代價(jià)地構(gòu)建一個(gè)容量為7.5TB