信息檢索檢索 向量空間模型

信息檢索檢索 向量空間模型

ID:12512853

大?。?8.00 KB

頁數:3頁

時間:2018-07-17

信息檢索檢索      向量空間模型_第1頁
信息檢索檢索      向量空間模型_第2頁
信息檢索檢索      向量空間模型_第3頁
資源描述:

《信息檢索檢索 向量空間模型》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。

1、信息檢索檢索向量空間模型姓名陳嚴學號2220122685班級智能科學與技術1班一:算法描述在文本挖掘、搜索引擎應用中,文本的特征表示是挖掘工作的基礎,它對文本進行預處理,抽取代表其特征的元數據,這些特征可以用結構化的形式保存,作為文檔的中間表示形式。向量空間模型(VectorSpaceModel)是近年來應用較多的文本特征表示方法之一,它是由GerardSlaton等人在1958年提出并發(fā)展起來的,是一個關于文獻表示的統(tǒng)計模型,具有較強的可計算性和可操作性,已經被廣泛地應用于文本檢索、自動文摘、關鍵詞自動提取、文本分類和搜索引擎等信息檢索領域的各項應用中,并且取得了較好的效果。

2、文獻(document):泛指各種機器可讀的記錄,可指一篇文章或一個網頁,也稱為文檔。項(term):亦稱索引項,是用來標引被檢索內容的關鍵詞等。項的權重(termweight):對于有n個不同的項的系統(tǒng),文獻D=(t1,t2,,,tn),項tk(1[k[n)常常被賦予一個數值Wk,表示它在文獻中的重要程度,稱為項tk的權重。相似度(Similarity):指兩個文檔內容相關程度的大小。確定權重的方法是運用TF-IDF公式,即Wik=tfik/dfk=tfik*idfk,其中tfik為特征項Tk在文檔Di中的出現(xiàn)頻率,稱為項頻率;dfk則是文檔集D中出現(xiàn)特征項Tk的文檔的數量,

3、稱為文檔頻率;idfk為dfk的倒數,稱為反轉文檔頻率。相似度是一個函數,它給出兩個向量之間的相似程度。常用的方法有:內積(InnerProduct)、余弦(Cosine)。對于二值向量,內積是查詢式中的詞項和文檔中的詞項相互匹配的數量;對于加權向量,內積是查詢式和文檔中相互匹配的詞項的權重乘積之和。余弦相似度計算兩個向量的夾角,余弦相似度是利用向量長度對內積進行歸一化的結果。二:數據描述建立10至15個文件,輸入文檔集,以供檢索。三:算法參數文件、項的權重、tfik、dfk、idfk、相似度四:實驗流程1.輸入文檔集;2.計算詞項的特征權重;3.輸入要查詢的內容;4.計算余弦

4、相似度;5.根據相似度排序,找出相似的文檔。五:實驗結果實驗生成result文件甲中的result.txt文件。六:實驗總結向量模型是以假設向量空間的各維之間相互正交(即各關鍵字之間相互獨立)為前提的,因而不可避免地存在由此帶來的損失關鍵字間的相關性的缺點,可它把對文檔內容和查詢要求的處理簡化為向量空間中向量的運算,克服了布爾模型的二值評價的缺點,可以計算出文檔與查詢式的相關程度,因而可以很容易地進行輸出結果的排序,用戶相關性反饋機制也很容易實現(xiàn),尤其是具有對處理海量數據的適應性等種種優(yōu)點使得它自誕生以來,至今都有很強的生命力。

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。