信息檢索與搜索引擎技術(shù)實(shí)驗(yàn)向量空間模型.doc

信息檢索與搜索引擎技術(shù)實(shí)驗(yàn)向量空間模型.doc

ID:56964587

大?。?22.00 KB

頁(yè)數(shù):13頁(yè)

時(shí)間:2020-07-29

信息檢索與搜索引擎技術(shù)實(shí)驗(yàn)向量空間模型.doc_第1頁(yè)
信息檢索與搜索引擎技術(shù)實(shí)驗(yàn)向量空間模型.doc_第2頁(yè)
信息檢索與搜索引擎技術(shù)實(shí)驗(yàn)向量空間模型.doc_第3頁(yè)
信息檢索與搜索引擎技術(shù)實(shí)驗(yàn)向量空間模型.doc_第4頁(yè)
信息檢索與搜索引擎技術(shù)實(shí)驗(yàn)向量空間模型.doc_第5頁(yè)
資源描述:

《信息檢索與搜索引擎技術(shù)實(shí)驗(yàn)向量空間模型.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院學(xué)生實(shí)驗(yàn)報(bào)告(2014—2015學(xué)年第1學(xué)期)課程名稱:信息檢索與搜索引擎技術(shù)開(kāi)課實(shí)驗(yàn)室:信自樓4452014年12月23日年級(jí)、專業(yè)、班計(jì)科111學(xué)號(hào)201110405138姓名成績(jī)實(shí)驗(yàn)項(xiàng)目名稱向量空間模型指導(dǎo)教師李衛(wèi)疆教師評(píng)語(yǔ)該同學(xué)是否了解實(shí)驗(yàn)原理:A.了解□B.基本了解□C.不了解□該同學(xué)的實(shí)驗(yàn)?zāi)芰Γ篈.強(qiáng)□B.中等□C.差□該同學(xué)的實(shí)驗(yàn)是否達(dá)到要求:A.達(dá)到□B.基本達(dá)到□C.未達(dá)到□實(shí)驗(yàn)報(bào)告是否規(guī)范:A.規(guī)范□B.基本規(guī)范□C.不規(guī)范□實(shí)驗(yàn)過(guò)程是否詳細(xì)記錄:A.詳細(xì)□B.一般□C.沒(méi)有□教師簽名:

2、年月日一、上機(jī)目的及內(nèi)容:給定文檔語(yǔ)料:d1:北京安立文高新技術(shù)公司d2:新一代的網(wǎng)絡(luò)訪問(wèn)技術(shù)d3:北京衛(wèi)星網(wǎng)絡(luò)有限公司d4:是最先進(jìn)的總線技術(shù)。。。d5:北京升平衛(wèi)星技術(shù)有限公司的新技術(shù)有。。。設(shè)計(jì)一個(gè)針對(duì)這些文檔的信息檢索系統(tǒng)。具體要求是:1)給出系統(tǒng)的有效詞匯集合(說(shuō)明取舍原因)。2)寫(xiě)出d1和d2在VSM中的表示(使用tf*idf,寫(xiě)出各項(xiàng)的數(shù)字表達(dá)式,具體數(shù)值不必實(shí)際計(jì)算出來(lái))。3)畫(huà)出系統(tǒng)的倒排文件示意圖。4)按照向量夾角的余弦計(jì)算公式,給出針對(duì)查詢“技術(shù)的公司”的前3個(gè)反饋結(jié)果。二、實(shí)驗(yàn)原理-13-給定文檔語(yǔ)料:?d1:北京

3、安立文高新技術(shù)公司?d2:新一代的網(wǎng)絡(luò)訪問(wèn)技術(shù)?d3:北京衛(wèi)星網(wǎng)絡(luò)有限公司?d4:是最先進(jìn)的總線技術(shù)。。。?d5:北京升平衛(wèi)星技術(shù)有限公司的新技術(shù)有。。。設(shè)計(jì)一個(gè)針對(duì)這些文檔的信息檢索系統(tǒng)。具體要求是:1)給出系統(tǒng)的有效詞匯集合(說(shuō)明取舍原因)。北京、安、立、文、高新、技術(shù)、公司、新、網(wǎng)絡(luò)、訪問(wèn)、衛(wèi)星、有限、先進(jìn)、總線、升、平的、是、最、有,這些詞作為停用詞不能加入系統(tǒng)的有效集合一、代,去除后并不影響原來(lái)句子語(yǔ)義的表達(dá)也不能算作系統(tǒng)的有效集合。2)寫(xiě)出d1和d2在VSM中的表示(使用tf*idf,寫(xiě)出各項(xiàng)的數(shù)字表達(dá)式,具體數(shù)值不必實(shí)際計(jì)算

4、出來(lái))。得到的矩陣:Termd1d2d3d4d5Term出現(xiàn)次數(shù)北京101013安100001立100001文100001高新100001技術(shù)110013公司101013新010012網(wǎng)絡(luò)011002訪問(wèn)010001衛(wèi)星001012有限001012先進(jìn)000101-13-總線000101升000011平000011說(shuō)明:TF:表示詞項(xiàng)在該文檔或者查詢?cè)~中出現(xiàn)的頻度。即該詞項(xiàng)出現(xiàn)次數(shù)除以該文檔的長(zhǎng)度(所有詞的個(gè)數(shù)):表示詞項(xiàng)k在Di中的出現(xiàn)次數(shù)。:表示該文檔的長(zhǎng)度(所有詞的個(gè)數(shù))IDF:表示詞項(xiàng)在文檔集合中的重要程度。一個(gè)詞項(xiàng)出現(xiàn)的文檔數(shù)越

5、多,說(shuō)明該詞項(xiàng)的區(qū)分度越差,其在文檔集合中的重要性就越低。N:表示集合中的文檔數(shù);:表示出現(xiàn)詞項(xiàng)k的文檔數(shù)。d1中各詞項(xiàng)的數(shù)字表達(dá)式“北京”的“安”的“立”的“文”的“高新”的“技術(shù)”的“公司”的d2中各詞項(xiàng)的數(shù)字表達(dá)式:-13-“新”的“網(wǎng)絡(luò)”的“訪問(wèn)”的“技術(shù)”的1)畫(huà)出系統(tǒng)的倒排文件示意圖。2)按照向量夾角的余弦計(jì)算公式,給出針對(duì)查詢“技術(shù)的公司”的前3個(gè)反饋結(jié)果。該部分由代碼實(shí)現(xiàn)。一、實(shí)驗(yàn)方法、步驟1.建立Java項(xiàng)目,2.建立DocumentStruct.java類文件并編輯-13-1.建立TextVector.java類文件并

6、編輯,如圖4-1,圖4-2所示圖4-1圖4-22.建立TF.java類文件并編輯,如圖圖4-7所示-13-圖4-41.建立IDF.java類文件并編輯,如圖圖4-5所示圖4-52.建立CaculateSim.java類文件并編輯,如圖4-6所示-13-圖4-61.建立MainApp.java類文件并編輯,圖4-7所示圖4-72.完成后的項(xiàng)目文件夾如圖4-8所示圖4-8-13-1.運(yùn)行結(jié)果如圖4-9所示-13-1.DocumentStruct.java代碼:packageacm.model;publicclassDocumentStruct

7、{publicDocumentStruct(){this.documentID=0;this.documentSimValue=0;this.documentContent="None";this.documentName="None";}publicDocumentStruct(intID,doublesim,Stringname,Stringcontent){this.documentID=ID;this.documentSimValue=sim;this.documentName=name;this.documentContent=

8、content;}publicStringgetDocumentContent(){returndocumentContent;}publicvoidsetDocumentContent(St

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。