資源描述:
《文檔復(fù)制檢測web服務(wù)原型的設(shè)計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、太原理工大學(xué)碩士學(xué)位論文文檔復(fù)制檢測Web服務(wù)原型的設(shè)計與實現(xiàn)姓名:安旭君申請學(xué)位級別:碩士專業(yè):@指導(dǎo)教師:彭新光20090301太原理工大學(xué)碩士研究生學(xué)位論文文檔復(fù)制檢測Web服務(wù)原型的設(shè)計與實現(xiàn)摘要隨著網(wǎng)絡(luò)數(shù)字資源的日益豐富和網(wǎng)絡(luò)環(huán)境使人們對存取信息方式的影響,數(shù)字文檔唾手可得,文檔復(fù)制變得越來越容易。近年來,學(xué)術(shù)剽竊現(xiàn)象屢見報端,互聯(lián)網(wǎng)上日益增多的重復(fù)網(wǎng)頁降低了檢索效率,給用戶帶來許多不便。文檔復(fù)制檢測技術(shù)是為了防止數(shù)字文檔的非法復(fù)制和擴散而提出的,在知識產(chǎn)權(quán)保護和信息檢索中有著重要應(yīng)用。它可以防止剽竊事件的發(fā)生,提高互聯(lián)網(wǎng)檢索效率,是近年來數(shù)據(jù)安全領(lǐng)域研究的熱點。
2、文檔復(fù)制檢測就是判斷一篇給定文檔是否抄襲、剽竊或者復(fù)制于另外一篇或者多篇文檔的內(nèi)容,剽竊不僅僅意味著原封不動地照搬,還包括對原作的移位變換﹑同義詞替換以及改變說法重述等方式。本文首先介紹文檔復(fù)制檢測技術(shù)的發(fā)展背景、基本概念、國內(nèi)外的研究現(xiàn)狀、應(yīng)用領(lǐng)域及科學(xué)意義。接著分析現(xiàn)有檢測系統(tǒng)的功能和特點,并探討構(gòu)建系統(tǒng)所需要的JAVAEE架構(gòu)體系、STRUTS框架、MVC模式、XML以及SQLServer等相關(guān)技術(shù)及其特點,提出了建立基于B/S三層架構(gòu)的文檔復(fù)制檢測Web服務(wù)原型系統(tǒng)的構(gòu)思。其次,本文設(shè)計并實現(xiàn)了文檔復(fù)制檢測Web服務(wù)原型系統(tǒng)的體系結(jié)構(gòu),該系統(tǒng)包括:用戶注冊登錄模塊、
3、文檔上傳模塊、文檔復(fù)制檢測模塊、用戶與系統(tǒng)交互模塊。該系統(tǒng)采用SQLServer2000作為后臺數(shù)據(jù)庫服務(wù)器,XML表示文檔文件,用TOMCAT6.0作為Web服務(wù)器,使用JAVA語言編寫Web服務(wù)器有關(guān)程序,客戶端用網(wǎng)頁瀏覽器即可訪問本系統(tǒng)?;谏鲜龉ぷ?,實現(xiàn)了文檔復(fù)制檢測Web服務(wù)原型系統(tǒng),該系統(tǒng)基于文檔關(guān)鍵詞抽取文檔特征信息,通過特征信息的匹配來檢測文檔之間的相似程度,為用戶提供了在線文檔復(fù)制檢測服務(wù)。在此基礎(chǔ)上進行了大量的系統(tǒng)測試,測試證明,該原型系統(tǒng)具有較強的可行性。關(guān)鍵詞:復(fù)制檢測,文本塊,相似度,STRUTSI太原理工大學(xué)碩士研究生學(xué)位論文DESIGNANDI
4、MPLEMENTOFWEB-SERVICEPROTOTYPEFORCOPYDETECTIONDOCUMENTABSTRACTAsnetworkstechnologyhasrapidlydeveloped,thedigitalresourceisbecomingricherandricher,socopedeasily.Asaresult,thechangerofway,whichpeoplestoreandgetinformation,resultfromnetwork.Finally,thedigitaldocumentsgetmoreandmoreeasytoobtai
5、nandtheduplicationofdocumentsbecomesmoreandmoreeasy.Inrecentyears,theplagiarismofacademicpaperhasbeenfoundinthepressrepeatedly;theredundanthomepageinInternethasincreaseddaybydaywhichcutretrievalefficiencyandbroughtdifficultytotheuser.Thetechnologyofdocumentscopydetectionhasbeenputforwardto
6、preventillegalcopyandspreadofdigitaldocuments,whichisusedinintellectualpropertyprotectionandinformationretrieval.ItcanpreventplagiarismincidentsandimprovetheInternetretrievalefficiencywhichwasahotpointindatasecurityresearchinrecentyears.Copydetectionfordocumentsistojudgewhetherthegivendocu
7、mentplagiarizescontentsofotherdocumentsinthedatabase,whichplagiarismoccursinsomeways,suchasbyduplicatingpartialortotaldocumentcontentsandusingdifferentwordsorsentencestoexpressthesamemeaningofthetextsofperviousdocumentsinthedatabase.Firstly,thispaperintroduces