資源描述:
《體裁在信息檢索中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、體裁在信息檢索中的應(yīng)用 摘要:體裁是信息檢索中重要的上下文因素之一。文章闡述了體裁的含義,重點(diǎn)說(shuō)明了數(shù)字體裁的含義、識(shí)別與描述,介紹了體裁在信息檢索中的應(yīng)用現(xiàn)狀,并分析了體裁在應(yīng)用中所面臨的識(shí)別、標(biāo)注等問(wèn)題;同時(shí)指出在未來(lái)發(fā)展中,體裁作為檢索目標(biāo)與文檔目標(biāo)的表現(xiàn)方式之一,應(yīng)獨(dú)立于內(nèi)容與用戶當(dāng)前任務(wù)進(jìn)行單獨(dú)匹配。為將體裁作為獨(dú)立維度應(yīng)用于檢索系統(tǒng)以提高返回結(jié)果相關(guān)度,引入DCG作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果表明,該方法能有效提高檢索效果。 關(guān)鍵詞:體裁;信息檢索;上下文;匹配;任務(wù) ?。篢P391.1文獻(xiàn)標(biāo)志碼:A
2、:1006-8228(2012)05-29-03 ApplicationofGenreinInformationRetrieval LiXiaoyun,YangXiaohua,aJiayu,LiuZhiming,JiangHui ?。–ollegeofputerScienceandTechnology,UniversityofSouthChina,Hengyang,Hunan421001,China) Abstract:Genreisoneofthemostimportantcontextualfact
3、orsinthecontext-driveninformationretrieval.Thenotionofgenreationretrieval.Furthermore,concludedsomeproblemsexistedincurrentresearch,includingautomaticidentificationandannotationofgenre,andproposedthatgenrecanbeusedtoreflectbothsearchgoalanddocumentintent,an
4、dthenservesasanunattacheddimension,besidesthetopicdimension,tomatchthepurposebetationneedanddocuments.Theexperimentalresultsdemonstratedthepotentialofgenretoimproveinformationretrieval. Keyationretrieval;context;match;task 0引言 中國(guó)互聯(lián)X絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[1]顯示,超過(guò)76%的X
5、民選擇使用以搜索引擎為代表的信息檢索系統(tǒng)搜索X絡(luò)資源。近年來(lái),如何提高信息檢索質(zhì)量一直是信息檢索領(lǐng)域的研究熱點(diǎn)。信息檢索是一個(gè)復(fù)雜且多變的過(guò)程,不同上下文情境會(huì)讓用戶產(chǎn)生不同的信息需求。在過(guò)去數(shù)十年中,信息檢索的發(fā)展經(jīng)歷了一個(gè)從以系統(tǒng)為中心,到以用戶為中心,再到目前基于上下文檢索的過(guò)程[2]。2005年信息檢索領(lǐng)域頂級(jí)會(huì)議SIGIR專設(shè)的IRiX討論組分析了信息檢索中的各類上下文因素,2006年歐洲信息檢索大會(huì)(ECIR)強(qiáng)調(diào)上下文是影響檢索質(zhì)量的關(guān)鍵,其他多個(gè)國(guó)際會(huì)議,如IIiX(2006至今)、Conte
6、xt-BasedIR(CIR,2005,2007)、AdaptiveIR(AIR,2006,2008)以及CIRSE(2009,2010)等亦專門(mén)討論了上下文信息檢索技術(shù)(ContextualIR,CIR)。由此可見(jiàn),上下文驅(qū)動(dòng)的信息檢索已成為目前的研究熱點(diǎn)?! ∶绹?guó)學(xué)者Ingl;m和Åkesson[9]通過(guò)對(duì)X絡(luò)在線報(bào)紙的分析,提出了一個(gè)四元組<內(nèi)容,形式,功能,位置>來(lái)描述這種新媒介的體裁。 3體裁在信息檢索中的應(yīng)用現(xiàn)狀 信息檢索領(lǐng)域中,用戶檢索目標(biāo)和文檔寫(xiě)作目標(biāo)的推測(cè)一直是研
7、究熱點(diǎn)。在推測(cè)文檔目標(biāo)方面,目前的主要方法有,分析文檔內(nèi)部詞語(yǔ)特征,分析在寫(xiě)作過(guò)程中對(duì)文檔的編輯、修改等行為,分析文檔表示模型的主題相關(guān)性,或是挖掘文檔的隱性知識(shí)來(lái)推斷寫(xiě)作目標(biāo)[11]。這些研究在一定程度上改進(jìn)了文檔描述模型來(lái)推測(cè)文檔目標(biāo),但本質(zhì)上都是對(duì)文檔及其相關(guān)上下文內(nèi)容進(jìn)行分析。事實(shí)上,文檔分類要么依據(jù)內(nèi)容或主題,要么依據(jù)體裁。例如,對(duì)學(xué)術(shù)文獻(xiàn)的分類,從內(nèi)容角度分為計(jì)算機(jī),語(yǔ)言學(xué),經(jīng)濟(jì)學(xué)等,從體裁角度則分為論文,研究報(bào)告,市場(chǎng)調(diào)查表等。與內(nèi)容相比,文檔體裁包含大量上下文信息,因此,目前有許多研究正是利用
8、體裁來(lái)改善信息檢索效果。 依據(jù)各類上下文推測(cè)出的查詢目標(biāo)和文檔目標(biāo),主要應(yīng)用在查詢擴(kuò)展、檢索結(jié)果過(guò)濾、目標(biāo)獨(dú)立匹配等方面。近年來(lái),以查詢目標(biāo)與文檔目標(biāo)直接進(jìn)行匹配逐漸成為趨勢(shì)。體裁天生就可用來(lái)表達(dá)文檔的交際目標(biāo)。Rosso[6]指出,文檔體裁能表達(dá)出內(nèi)容所不能、亦不會(huì)表達(dá)的信息。由此可見(jiàn),體裁對(duì)于特定場(chǎng)景下判斷文檔與用戶檢索意圖的相關(guān)性具有關(guān)鍵作用。2007年TGSE研討會(huì)(ToulativeGa