資源描述:
《基于團的Markov網(wǎng)絡信息檢索模型.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、基于團的Markov網(wǎng)絡信息檢索模型甘麗新王明文張華偉江西師范大學2006年7月23日研究背景模型思想模型方法實驗結(jié)果進一步工作大綱研究背景提高檢索效率是信息檢索研究的永恒主題現(xiàn)有很多研究根據(jù)詞之間的依賴關(guān)系進行直接擴展在檢索過程中加入有利于檢索的信息改善檢索結(jié)果如何建立能刻劃這種依賴關(guān)系的模型?模型思想考慮詞與詞之間的相關(guān)性對查詢進行擴展,使查詢包含更多的有用信息.在Markov網(wǎng)絡檢索模型中,通過對檢索詞子網(wǎng)絡結(jié)構(gòu)的分析,提取出詞網(wǎng)絡中的最大完全子圖-團。同一子團中的詞構(gòu)成一個形式概念,由此把基于詞的檢索擴展為基于形式概念檢索
2、。通過團來提取詞與詞之間的依賴關(guān)系。數(shù)據(jù)集預處理構(gòu)建檢索詞子網(wǎng)絡計算詞的相似性及其idf值檢索詞子網(wǎng)絡詞團的提取根據(jù)團的提取算法查詢擴展根據(jù)團的擴展算法基于團的Markov網(wǎng)絡模型模型方法(1)詞的Markov網(wǎng)絡構(gòu)造基于Markov網(wǎng)絡是無向圖的考慮,本文采用的是條件概率的綜合指標,記為:本文采用了逆文檔頻率,過濾掉一些高頻詞和低頻詞。詞的逆文檔頻率定義為:網(wǎng)絡中的每一個詞,都滿足于:且(2)團的提取通過對詞的Markov網(wǎng)絡結(jié)構(gòu)的分析,發(fā)現(xiàn)許多詞之間是有邊相連,而且構(gòu)成了完全圖-團。本文提出了一個提取團的算法。算法思想:在(n
3、-1)_Clique()中,任何兩個團若是n_Clique()中同一個團的子團,那么這2個團中只存在兩個不相同的詞,且這兩個詞之間是有邊相連,即相關(guān)。檢索模型給定查詢,文檔集,我們希望根據(jù)文檔和給定的查詢的相關(guān)概率的大小,排列文檔集中的文檔,從而得出我們需要的文檔。因此需要計算。為詞子空間的Markov網(wǎng)絡,C為團的集合,有條件概率定義可得:若詞的網(wǎng)絡固定時,,,,對任一均相同,則由(5)式可得檢索算法的一般形式:由乘法公式和條件概率定義可得:本文將團中詞與詞之間的相關(guān)性引入到檢索中,通過修正詞的權(quán)重,重新構(gòu)造文檔和查詢之間的相關(guān)
4、性。因此由(7)式修正為:其中:權(quán)重計算概率估計:權(quán)重方式:為歸一化因子(10)團的擴展由于同一個團中的詞構(gòu)成了一個形式概念,并且很好的反映了詞與詞之間的依賴關(guān)系一般來說,若一個團的階數(shù)越高,則該團越重要,它所構(gòu)成的形式概念也越重要對于同階團,團的權(quán)重越大,則該團越重要,它所構(gòu)成的形式概念也越重要團的選取方法為:從最高階團開始選取,同階團則按照團的權(quán)重由大到小選取團的權(quán)重圖中團的重要性為:試驗結(jié)果試驗數(shù)據(jù):adi,med,cran,cisi,cacm預處理:提取文檔中的
和部分的內(nèi)容,去掉了非法字符和數(shù)字,
5、大寫字母變小寫字母,去除停用詞,運用Porter算法進行詞干化處理評價指標:11-avg和3-avg模型比較:5種檢索算法hits、tf、idf、tf*idf和BM25與本文模型進行比較進一步工作嘗試將窗口單元進行調(diào)整,以段落或是句子為單位;在文檔空間中,考慮文檔與文檔之間的關(guān)系,建立文檔網(wǎng)絡,提取文檔團擴展文擋模型;嘗試采用迭代思想,通過詞之間的關(guān)系與文檔之間的關(guān)系的相互影響進行迭代,構(gòu)造成穩(wěn)定網(wǎng)絡;在大文檔集(像TREC)和實際問題中檢驗模型性能;THANKYOU!u(y+B2E6H9KcOfRjUmXp!s&v)z0C4F7
6、IaMdPgSkVnZq$t*x-A1D5G8KbNeQiTlWo#r%v(y+B3E6H9LcOgRjUmYp!s&w)z1C4F7JaMdPhSkVnZq$u*x-A2D5G8KbNfQiTlXo#r%v(y0B3E6I9LcOgRjVmYp!t&w)z1C4G7JaMePhSkWnZr$u*x+A2D5H8KcNfQiUlXo#s%v(y0B3F6I9LdOgRjVmYq!t&w-z1C4G7JbMePhTkWnZr$u(x+A2E5H8KcNfRiUlXp#s%v)y0C3F6IaLdOgSjVnYq!t*w-z1D4G7
7、JbMeQhTkWoZr$u(x+B2E5H9KcNfRiUmXp#s&v)y0C3F7IaLdPgSjVnYq$t*w-A1D4G8JbNeQhTlWoZr%u(y+B2E6H9KcOfRjUmXp!s&v)z0C3F7IaMdPgSkVnYq$t*x-A1D5G8JbNeQiTlWo#r%u(y+B3E6H9LcOfRjUmYp!s&w)z0C4F7JaMdPhSkVnZq$u*x-A2D5G8KbNeQiTlXo#r%v(y+B3E6I9LcOgRjUmYp!t&w)z1C4F7JaMePhSkWnZq$u*x+A2D5H8
8、KbNfQiUlXo#s%v(y0B3F6I9LdOgRjVmYp!t&w-z1C4G7JaMePhTkWnZr$u*x+A2E5H8KcNfQiUlXp#s%v)y0B3F6IaLdOgSjVmYq!t*w-z1D4G7JbMeQhTkWoZr$