資源描述:
《信息檢索中信息需求域的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、刪性聲明f㈣必本人聲明:所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下進(jìn)行的研究212作及取得的研究成果。除本文已經(jīng)注明引用的內(nèi)容外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得內(nèi)墓古太學(xué)及其他教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。學(xué)位論文作者簽名:指導(dǎo)教師簽名:門期:止凸衛(wèi)粵日期:刁枷舡拉在學(xué)期間研究成果使用承諾書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:內(nèi)蒙古大學(xué)有權(quán)將學(xué)位論文的全部?jī)?nèi)容或部分保留并向國(guó)家有關(guān)機(jī)構(gòu)、部
2、門送交學(xué)位論文的復(fù)印件和磁盤,允許編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,也可以采用影印、縮印或其他復(fù)制手段保存、匯編學(xué)位論文。為保護(hù)學(xué)院和導(dǎo)師的知識(shí)產(chǎn)權(quán),作者在學(xué)期間取得的研究成果屬于內(nèi)蒙古大學(xué)。作者今后使用涉及在學(xué)期間主要研究?jī)?nèi)容或研究成果,須征得內(nèi)蒙古大學(xué)就讀期間導(dǎo)師的同意;若用于發(fā)表論文,版權(quán)單位必須署名為內(nèi)蒙古大學(xué)方可投稿或公開發(fā)表。學(xué)位論文作者簽名:日期:湮[!-fl:l/指導(dǎo)教師簽名:方俘Ft期:五垃:!!!!內(nèi)蒙古大學(xué)博士學(xué)位論文信息檢索中信息需求域的研究摘要信息檢索作為信息獲取的手段,是信息處理的重要內(nèi)容,是當(dāng)前信息
3、處理研究領(lǐng)域中的研究熱點(diǎn)。信息檢索主要包括三個(gè)方面的內(nèi)容:信息需求表達(dá)、文檔表達(dá)和檢索模型。其中,需求表達(dá)是一個(gè)重要的環(huán)節(jié)。只有當(dāng)需求被正確地理解和表達(dá)時(shí),才有可能得到好的檢索結(jié)果;否則,如果不能很好地表達(dá)需求,再好的檢索系統(tǒng)也無法得到好的檢索結(jié)果。當(dāng)前,機(jī)器檢索本質(zhì)上是基于關(guān)鍵詞匹配的檢索,將用戶查詢請(qǐng)求假定為是對(duì)用戶信息需求的一個(gè)準(zhǔn)確描述。但事實(shí)上,查詢請(qǐng)求往往不能準(zhǔn)確地描述用戶的信息需求,這將不可避免地導(dǎo)致不太理想的檢索結(jié)果。為了更好地描述和表達(dá)用戶的信息需求,通常使用相關(guān)反饋的方法。相關(guān)反饋(包括用戶相關(guān)反饋和
4、偽相關(guān)反饋)方法試圖從反饋的文檔中尋找一組關(guān)聯(lián)詞項(xiàng)以增強(qiáng)用戶的初始查詢請(qǐng)求。實(shí)驗(yàn)顯示,這種處理方法有一定的效果。然而,注意到這些詞項(xiàng)的選取只是一種啟發(fā)式的想法,通常假定用戶的信息需求具有一個(gè)準(zhǔn)確的描述。相關(guān)反饋方法試圖利用反饋信息尋求用戶需求的準(zhǔn)確描述,但實(shí)際上用戶需求的準(zhǔn)確描述是難以得到的。這種利用相關(guān)反饋的方法進(jìn)行的查詢擴(kuò)展只是對(duì)用戶信息需求的一種猜想,并不準(zhǔn)確。在本文中,我們采取了不同的方法。我們假定需求是一個(gè)語義信息檢索中信息需求域的研究范圍。一開始,用戶使用初始查詢提出查詢請(qǐng)求,當(dāng)我們獲得了一些反饋信息后(用
5、戶相關(guān)反饋或偽相關(guān)反饋),我們就能夠建立一種對(duì)信息需求更好的描述,但這種描述不是試圖去建立對(duì)信息需求的準(zhǔn)確描述,而是概括性地去框定一個(gè)需求的范圍。我們使用反饋信息建立需求的下界墾和上界良,從而界定需求的一個(gè)范圍。下界對(duì)應(yīng)反饋文檔的共有部分,上界對(duì)應(yīng)反饋文檔的全部?jī)?nèi)容。論文導(dǎo)出了需求的下界和上界,得到了需求域的兩個(gè)邊界,從而建立了需求域模型I=(B,夏)。信息需求域具有以下特點(diǎn):(1)信息需求域的下界表達(dá)了信息需求集中關(guān)注的內(nèi)容,代表了信息需求的精度,也代表了信息需求的內(nèi)涵;(2)信息需求域的上界包含了信息需求的延伸和擴(kuò)
6、展的內(nèi)容,代表了信息需求的廣度,也代表了信息需求的外延;(3)信息需求域較為松散地晁定了用戶信息需求的一個(gè)范圍。論文中給出了建立需求域的兩種機(jī)制:用戶相關(guān)文檔反饋機(jī)制和偽相關(guān)文檔反饋機(jī)制。用戶相關(guān)文檔反饋機(jī)制要求用戶從初始查詢結(jié)果中標(biāo)注反饋若干個(gè)相關(guān)文檔,用這些文檔建立信息需求域。偽相關(guān)文檔反饋機(jī)制從初始檢索結(jié)果中自動(dòng)選取前n個(gè)(topn)文檔,用這n個(gè)文檔建立需求域。此方法的優(yōu)點(diǎn)是自動(dòng)化,無需用戶參與,缺點(diǎn)是由于是偽相關(guān)文檔反饋的結(jié)果,所反饋的文檔不一定都是用戶所需要的文檔,因此,所得到的信息需求域是用戶需求域的近似
7、域。論文在需求域基礎(chǔ)上,分析了文檔相似度的計(jì)算方法,建立了內(nèi)蒙吉大學(xué)博士學(xué)位論文需求域基礎(chǔ)上的相似度計(jì)算模型。論文在通用的TREC測(cè)試集上通過一系列實(shí)驗(yàn)對(duì)所建立的模型進(jìn)行了模型訓(xùn)練和分析,并進(jìn)一步進(jìn)行了一系列檢索性能對(duì)比實(shí)驗(yàn),以驗(yàn)證其有效性。在檢索性能對(duì)比實(shí)驗(yàn)中,將所建立的需求域基礎(chǔ)上的相似度計(jì)算模型與三種經(jīng)典的模型(偽相關(guān)反饋語言模型Mi)【fblddir、偽相關(guān)反饋tfidf模型Fbtfidf以及偽相關(guān)反饋概率模型Fbokapi)進(jìn)行了對(duì)比,對(duì)比實(shí)驗(yàn)結(jié)果顯示,需求域基礎(chǔ)上的相似度計(jì)算模型的檢索性能得到了提高,表明所
8、建立的模型是有效的,結(jié)果令人滿意。與傳統(tǒng)的方法相比較,傳統(tǒng)的方法往往試圖建立信息需求的一種準(zhǔn)確的描述,而本文則是為信息需求建立一種較為松散的描述,使用需求域的方法去界定信息需求的一個(gè)范圍。概況起來,論文研究的主要?jiǎng)?chuàng)新點(diǎn)為:(1)提出了用戶信息需求域的概念,給出了確定信息需求域的方法;、(2)提出了一種基于粗糙集的信息需求域的數(shù)學(xué)模