資源描述:
《信息檢索與搜索引擎技術(shù)實(shí)驗(yàn)向量空間模型》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、實(shí)用標(biāo)準(zhǔn)文案昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院學(xué)生實(shí)驗(yàn)報(bào)告(2014—2015學(xué)年第1學(xué)期)課程名稱:信息檢索與搜索引擎技術(shù)開(kāi)課實(shí)驗(yàn)室:信自樓4452014年12月23日年級(jí)、專業(yè)、班計(jì)科111學(xué)號(hào)201110405138姓名成績(jī)實(shí)驗(yàn)項(xiàng)目名稱向量空間模型指導(dǎo)教師李衛(wèi)疆教師評(píng)語(yǔ)該同學(xué)是否了解實(shí)驗(yàn)原理:A.了解□B.基本了解□C.不了解□該同學(xué)的實(shí)驗(yàn)?zāi)芰Γ篈.強(qiáng)□B.中等□C.差□該同學(xué)的實(shí)驗(yàn)是否達(dá)到要求:A.達(dá)到□B.基本達(dá)到□C.未達(dá)到□實(shí)驗(yàn)報(bào)告是否規(guī)范:A.規(guī)范□B.基本規(guī)范□C.不規(guī)范□實(shí)驗(yàn)過(guò)程是否詳細(xì)記錄:A.詳細(xì)□B.一般□C.沒(méi)有□教師簽名:年月日一、上機(jī)目的及內(nèi)容:給定
2、文檔語(yǔ)料:d1:北京安立文高新技術(shù)公司d2:新一代的網(wǎng)絡(luò)訪問(wèn)技術(shù)d3:北京衛(wèi)星網(wǎng)絡(luò)有限公司d4:是最先進(jìn)的總線技術(shù)。。。d5:北京升平衛(wèi)星技術(shù)有限公司的新技術(shù)有。。。設(shè)計(jì)一個(gè)針對(duì)這些文檔的信息檢索系統(tǒng)。具體要求是:1)給出系統(tǒng)的有效詞匯集合(說(shuō)明取舍原因)。2)寫(xiě)出d1和d2在VSM中的表示(使用tf*idf,寫(xiě)出各項(xiàng)的數(shù)字表達(dá)式,具體數(shù)值不必實(shí)際計(jì)算出來(lái))。3)畫(huà)出系統(tǒng)的倒排文件示意圖。4)按照向量夾角的余弦計(jì)算公式,給出針對(duì)查詢“技術(shù)的公司”的前3個(gè)反饋結(jié)果。二、實(shí)驗(yàn)原理精彩文檔實(shí)用標(biāo)準(zhǔn)文案給定文檔語(yǔ)料:?d1:北京安立文高新技術(shù)公司?d2:新一代的網(wǎng)絡(luò)訪問(wèn)技術(shù)?d3:北京衛(wèi)
3、星網(wǎng)絡(luò)有限公司?d4:是最先進(jìn)的總線技術(shù)。。。?d5:北京升平衛(wèi)星技術(shù)有限公司的新技術(shù)有。。。設(shè)計(jì)一個(gè)針對(duì)這些文檔的信息檢索系統(tǒng)。具體要求是:1)給出系統(tǒng)的有效詞匯集合(說(shuō)明取舍原因)。北京、安、立、文、高新、技術(shù)、公司、新、網(wǎng)絡(luò)、訪問(wèn)、衛(wèi)星、有限、先進(jìn)、總線、升、平的、是、最、有,這些詞作為停用詞不能加入系統(tǒng)的有效集合一、代,去除后并不影響原來(lái)句子語(yǔ)義的表達(dá)也不能算作系統(tǒng)的有效集合。2)寫(xiě)出d1和d2在VSM中的表示(使用tf*idf,寫(xiě)出各項(xiàng)的數(shù)字表達(dá)式,具體數(shù)值不必實(shí)際計(jì)算出來(lái))。得到的矩陣:Termd1d2d3d4d5Term出現(xiàn)次數(shù)北京101013安100001立100
4、001文100001高新100001技術(shù)110013公司101013新010012網(wǎng)絡(luò)011002訪問(wèn)010001衛(wèi)星001012有限001012精彩文檔實(shí)用標(biāo)準(zhǔn)文案先進(jìn)000101總線000101升000011平000011說(shuō)明:TF:表示詞項(xiàng)在該文檔或者查詢?cè)~中出現(xiàn)的頻度。即該詞項(xiàng)出現(xiàn)次數(shù)除以該文檔的長(zhǎng)度(所有詞的個(gè)數(shù)):表示詞項(xiàng)k在Di中的出現(xiàn)次數(shù)。:表示該文檔的長(zhǎng)度(所有詞的個(gè)數(shù))IDF:表示詞項(xiàng)在文檔集合中的重要程度。一個(gè)詞項(xiàng)出現(xiàn)的文檔數(shù)越多,說(shuō)明該詞項(xiàng)的區(qū)分度越差,其在文檔集合中的重要性就越低。N:表示集合中的文檔數(shù);:表示出現(xiàn)詞項(xiàng)k的文檔數(shù)。d1中各詞項(xiàng)的數(shù)字表達(dá)式
5、“北京”的“安”的“立”的“文”的“高新”的“技術(shù)”的“公司”的d2中各詞項(xiàng)的數(shù)字表達(dá)式:精彩文檔實(shí)用標(biāo)準(zhǔn)文案“新”的“網(wǎng)絡(luò)”的“訪問(wèn)”的“技術(shù)”的1)畫(huà)出系統(tǒng)的倒排文件示意圖。2)按照向量夾角的余弦計(jì)算公式,給出針對(duì)查詢“技術(shù)的公司”的前3個(gè)反饋結(jié)果。該部分由代碼實(shí)現(xiàn)。一、實(shí)驗(yàn)方法、步驟1.建立Java項(xiàng)目,2.建立DocumentStruct.java類文件并編輯精彩文檔實(shí)用標(biāo)準(zhǔn)文案1.建立TextVector.java類文件并編輯,如圖4-1,圖4-2所示圖4-1圖4-22.建立TF.java類文件并編輯,如圖圖4-7所示精彩文檔實(shí)用標(biāo)準(zhǔn)文案圖4-41.建立IDF.java
6、類文件并編輯,如圖圖4-5所示圖4-52.建立CaculateSim.java類文件并編輯,如圖4-6所示精彩文檔實(shí)用標(biāo)準(zhǔn)文案圖4-61.建立MainApp.java類文件并編輯,圖4-7所示圖4-72.完成后的項(xiàng)目文件夾如圖4-8所示精彩文檔實(shí)用標(biāo)準(zhǔn)文案圖4-81.運(yùn)行結(jié)果如圖4-9所示精彩文檔實(shí)用標(biāo)準(zhǔn)文案1.DocumentStruct.java代碼:packageacm.model;publicclassDocumentStruct{publicDocumentStruct(){this.documentID=0;this.documentSimValue=0;this.d
7、ocumentContent="None";this.documentName="None";}publicDocumentStruct(intID,doublesim,Stringname,Stringcontent){this.documentID=ID;this.documentSimValue=sim;this.documentName=name;this.documentContent=content;}publicStringgetDocumentContent(){