資源描述:
《信息檢索檢索 向量空間模型》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、信息檢索檢索向量空間模型姓名陳嚴(yán)學(xué)號(hào)2220122685班級(jí)智能科學(xué)與技術(shù)1班一:算法描述在文本挖掘、搜索引擎應(yīng)用中,文本的特征表示是挖掘工作的基礎(chǔ),它對(duì)文本進(jìn)行預(yù)處理,抽取代表其特征的元數(shù)據(jù),這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的中間表示形式。向量空間模型(VectorSpaceModel)是近年來應(yīng)用較多的文本特征表示方法之一,它是由GerardSlaton等人在1958年提出并發(fā)展起來的,是一個(gè)關(guān)于文獻(xiàn)表示的統(tǒng)計(jì)模型,具有較強(qiáng)的可計(jì)算性和可操作性,已經(jīng)被廣泛地應(yīng)用于文本檢索、自動(dòng)文摘、關(guān)鍵詞自動(dòng)提取、文本分類和搜索引擎等信息檢索領(lǐng)域的各項(xiàng)應(yīng)用中,并且取得了較好的效果。
2、文獻(xiàn)(document):泛指各種機(jī)器可讀的記錄,可指一篇文章或一個(gè)網(wǎng)頁,也稱為文檔。項(xiàng)(term):亦稱索引項(xiàng),是用來標(biāo)引被檢索內(nèi)容的關(guān)鍵詞等。項(xiàng)的權(quán)重(termweight):對(duì)于有n個(gè)不同的項(xiàng)的系統(tǒng),文獻(xiàn)D=(t1,t2,,,tn),項(xiàng)tk(1[k[n)常常被賦予一個(gè)數(shù)值Wk,表示它在文獻(xiàn)中的重要程度,稱為項(xiàng)tk的權(quán)重。相似度(Similarity):指兩個(gè)文檔內(nèi)容相關(guān)程度的大小。確定權(quán)重的方法是運(yùn)用TF-IDF公式,即Wik=tfik/dfk=tfik*idfk,其中tfik為特征項(xiàng)Tk在文檔Di中的出現(xiàn)頻率,稱為項(xiàng)頻率;dfk則是文檔集D中出現(xiàn)特征項(xiàng)Tk的文檔的數(shù)量,
3、稱為文檔頻率;idfk為dfk的倒數(shù),稱為反轉(zhuǎn)文檔頻率。相似度是一個(gè)函數(shù),它給出兩個(gè)向量之間的相似程度。常用的方法有:內(nèi)積(InnerProduct)、余弦(Cosine)。對(duì)于二值向量,內(nèi)積是查詢式中的詞項(xiàng)和文檔中的詞項(xiàng)相互匹配的數(shù)量;對(duì)于加權(quán)向量,內(nèi)積是查詢式和文檔中相互匹配的詞項(xiàng)的權(quán)重乘積之和。余弦相似度計(jì)算兩個(gè)向量的夾角,余弦相似度是利用向量長度對(duì)內(nèi)積進(jìn)行歸一化的結(jié)果。二:數(shù)據(jù)描述建立10至15個(gè)文件,輸入文檔集,以供檢索。三:算法參數(shù)文件、項(xiàng)的權(quán)重、tfik、dfk、idfk、相似度四:實(shí)驗(yàn)流程1.輸入文檔集;2.計(jì)算詞項(xiàng)的特征權(quán)重;3.輸入要查詢的內(nèi)容;4.計(jì)算余弦
4、相似度;5.根據(jù)相似度排序,找出相似的文檔。五:實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)生成result文件甲中的result.txt文件。六:實(shí)驗(yàn)總結(jié)向量模型是以假設(shè)向量空間的各維之間相互正交(即各關(guān)鍵字之間相互獨(dú)立)為前提的,因而不可避免地存在由此帶來的損失關(guān)鍵字間的相關(guān)性的缺點(diǎn),可它把對(duì)文檔內(nèi)容和查詢要求的處理簡化為向量空間中向量的運(yùn)算,克服了布爾模型的二值評(píng)價(jià)的缺點(diǎn),可以計(jì)算出文檔與查詢式的相關(guān)程度,因而可以很容易地進(jìn)行輸出結(jié)果的排序,用戶相關(guān)性反饋機(jī)制也很容易實(shí)現(xiàn),尤其是具有對(duì)處理海量數(shù)據(jù)的適應(yīng)性等種種優(yōu)點(diǎn)使得它自誕生以來,至今都有很強(qiáng)的生命力。