基于markov網(wǎng)絡(luò)的檢索模型

基于markov網(wǎng)絡(luò)的檢索模型

ID:8406360

大小:397.00 KB

頁數(shù):13頁

時(shí)間:2018-03-20

基于markov網(wǎng)絡(luò)的檢索模型_第1頁
基于markov網(wǎng)絡(luò)的檢索模型_第2頁
基于markov網(wǎng)絡(luò)的檢索模型_第3頁
基于markov網(wǎng)絡(luò)的檢索模型_第4頁
基于markov網(wǎng)絡(luò)的檢索模型_第5頁
資源描述:

《基于markov網(wǎng)絡(luò)的檢索模型》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、第五屆全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會(huì)SEWM2007中文web檢索評(píng)測(cè)報(bào)告江西師范大學(xué)報(bào)告人:曹瑛內(nèi)容提綱評(píng)測(cè)目標(biāo)系統(tǒng)設(shè)計(jì)實(shí)驗(yàn)結(jié)果未來工作評(píng)測(cè)目標(biāo)主題提取(TD)查找主題相關(guān)的關(guān)鍵資源的入口導(dǎo)航搜索(HPNP)HP查找指定名字的網(wǎng)站的首頁NP查找指定名字的頁面主題提取TD任務(wù)分析不能按照網(wǎng)頁相似度大小來判斷站點(diǎn)是從一組相關(guān)網(wǎng)頁的入口網(wǎng)頁深度一般不會(huì)大于4導(dǎo)航搜索導(dǎo)航搜索(HPNP)主頁查找檢索返回的相關(guān)網(wǎng)頁可能只來源于某幾個(gè)網(wǎng)站主頁大部分是以“/”結(jié)尾,或者結(jié)尾包含“index”,“default”單詞指定頁面查找一般

2、可以按照網(wǎng)頁的檢索評(píng)分得到結(jié)果查詢?nèi)蝿?wù)和網(wǎng)頁的title基本一致系統(tǒng)設(shè)計(jì)解壓縮查詢?nèi)蝿?wù)分析CWT200g分析網(wǎng)頁分詞預(yù)處理TD/HPNP初次排序結(jié)果檢索建立索引二次檢索系統(tǒng)設(shè)計(jì)分析網(wǎng)頁去掉冗余信息,只保留title和body的標(biāo)簽內(nèi)容分詞北大天網(wǎng)提供的CHSeg分詞程序統(tǒng)計(jì)詞頻系統(tǒng)設(shè)計(jì)查詢分析手動(dòng)判斷,分開HP和NP查詢對(duì)查詢進(jìn)行分詞,統(tǒng)計(jì)詞頻索引和檢索開源lucene對(duì)提取的title和body建立索引檢索中運(yùn)用向量模型權(quán)重計(jì)算公式W(ti,dj)=二次排序針對(duì)不同的查詢?nèi)蝿?wù)采取不同策略HP查找主頁首先要進(jìn)行網(wǎng)頁站點(diǎn)聚類,

3、每個(gè)網(wǎng)站取出若干根據(jù)規(guī)則得到的主頁后選頁面,然后按照title:body=4:1重新評(píng)分,進(jìn)行排序NP不進(jìn)行二次排序TD首先要進(jìn)行網(wǎng)頁站點(diǎn)聚類,每個(gè)網(wǎng)站取出根據(jù)規(guī)則得到的候選頁面,然后按照title:body=1:4重新評(píng)分,進(jìn)行排序提交結(jié)果RUN1firtex工具RUN2用title和body檢索RUN3只用title進(jìn)行檢索實(shí)驗(yàn)環(huán)境操作系統(tǒng)redhat9.0系統(tǒng)配置2.8GCPU,內(nèi)存4G編程語言java總結(jié)和未來工作網(wǎng)頁結(jié)構(gòu)提取網(wǎng)頁分塊字體大小、文字樣式詞的位置關(guān)系鏈接關(guān)系分析錨文本的利用檢索模型的更新謝謝

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。