基于markov網(wǎng)絡(luò)的檢索模型

基于markov網(wǎng)絡(luò)的檢索模型

ID:8406360

大?。?97.00 KB

頁數(shù):13頁

時間:2018-03-20

基于markov網(wǎng)絡(luò)的檢索模型_第1頁
基于markov網(wǎng)絡(luò)的檢索模型_第2頁
基于markov網(wǎng)絡(luò)的檢索模型_第3頁
基于markov網(wǎng)絡(luò)的檢索模型_第4頁
基于markov網(wǎng)絡(luò)的檢索模型_第5頁
資源描述:

《基于markov網(wǎng)絡(luò)的檢索模型》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、第五屆全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會SEWM2007中文web檢索評測報告江西師范大學(xué)報告人:曹瑛內(nèi)容提綱評測目標系統(tǒng)設(shè)計實驗結(jié)果未來工作評測目標主題提?。═D)查找主題相關(guān)的關(guān)鍵資源的入口導(dǎo)航搜索(HPNP)HP查找指定名字的網(wǎng)站的首頁NP查找指定名字的頁面主題提取TD任務(wù)分析不能按照網(wǎng)頁相似度大小來判斷站點是從一組相關(guān)網(wǎng)頁的入口網(wǎng)頁深度一般不會大于4導(dǎo)航搜索導(dǎo)航搜索(HPNP)主頁查找檢索返回的相關(guān)網(wǎng)頁可能只來源于某幾個網(wǎng)站主頁大部分是以“/”結(jié)尾,或者結(jié)尾包含“index”,“default”單詞指定頁面查找一般

2、可以按照網(wǎng)頁的檢索評分得到結(jié)果查詢?nèi)蝿?wù)和網(wǎng)頁的title基本一致系統(tǒng)設(shè)計解壓縮查詢?nèi)蝿?wù)分析CWT200g分析網(wǎng)頁分詞預(yù)處理TD/HPNP初次排序結(jié)果檢索建立索引二次檢索系統(tǒng)設(shè)計分析網(wǎng)頁去掉冗余信息,只保留title和body的標簽內(nèi)容分詞北大天網(wǎng)提供的CHSeg分詞程序統(tǒng)計詞頻系統(tǒng)設(shè)計查詢分析手動判斷,分開HP和NP查詢對查詢進行分詞,統(tǒng)計詞頻索引和檢索開源lucene對提取的title和body建立索引檢索中運用向量模型權(quán)重計算公式W(ti,dj)=二次排序針對不同的查詢?nèi)蝿?wù)采取不同策略HP查找主頁首先要進行網(wǎng)頁站點聚類,

3、每個網(wǎng)站取出若干根據(jù)規(guī)則得到的主頁后選頁面,然后按照title:body=4:1重新評分,進行排序NP不進行二次排序TD首先要進行網(wǎng)頁站點聚類,每個網(wǎng)站取出根據(jù)規(guī)則得到的候選頁面,然后按照title:body=1:4重新評分,進行排序提交結(jié)果RUN1firtex工具RUN2用title和body檢索RUN3只用title進行檢索實驗環(huán)境操作系統(tǒng)redhat9.0系統(tǒng)配置2.8GCPU,內(nèi)存4G編程語言java總結(jié)和未來工作網(wǎng)頁結(jié)構(gòu)提取網(wǎng)頁分塊字體大小、文字樣式詞的位置關(guān)系鏈接關(guān)系分析錨文本的利用檢索模型的更新謝謝

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。