.net分詞搜索程序說(shuō)明書

.net分詞搜索程序說(shuō)明書

ID:6137933

大?。?91.15 KB

頁(yè)數(shù):15頁(yè)

時(shí)間:2018-01-04

.net分詞搜索程序說(shuō)明書_第1頁(yè)
.net分詞搜索程序說(shuō)明書_第2頁(yè)
.net分詞搜索程序說(shuō)明書_第3頁(yè)
.net分詞搜索程序說(shuō)明書_第4頁(yè)
.net分詞搜索程序說(shuō)明書_第5頁(yè)
資源描述:

《.net分詞搜索程序說(shuō)明書》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、.Net分詞搜索程序說(shuō)明書ShootSearch(開(kāi)發(fā)代號(hào):SpiderMan)說(shuō)明書文件狀態(tài):[√]草稿[]正式發(fā)布[]正在修改文件標(biāo)識(shí):ShootSunStudio-SpiderMan-20070815當(dāng)前版本:0.1作者:YinJun完成日期:未完成ShootSunStudio射日工作室http://www.shootsoft.netsupport@shootsoft.net源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說(shuō)明書版本歷史版本/狀態(tài)作者參與者起止日期備注0.1尹君無(wú)2007/8

2、/152006/8/17源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說(shuō)明書目錄0.文檔介紹40.1文檔目的40.2文檔范圍40.3讀者對(duì)象40.4參考文檔51.產(chǎn)品介紹62.產(chǎn)品面向的用戶群體63.產(chǎn)品應(yīng)當(dāng)遵循的標(biāo)準(zhǔn)或規(guī)范64.ShootSearch命名空間65.ShootSearch的使用75.1站內(nèi)搜索75.2遠(yuǎn)程采集9源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說(shuō)明書0.文檔介紹本文檔主要介紹有關(guān)ShootSearc

3、h(開(kāi)發(fā)代號(hào):SpiderMan)的各組件類庫(kù)和如何使用ShootSearch來(lái)進(jìn)行數(shù)據(jù)的采集和搜索。0.1文檔目的因?yàn)镾hootSearch(開(kāi)發(fā)代號(hào):SpiderMan)并沒(méi)有一個(gè)比較系統(tǒng)的介紹,所以為了方便大家使用也為了規(guī)范以后的開(kāi)發(fā),特編寫此文檔。因?yàn)?.2版在架構(gòu)上出了點(diǎn)問(wèn)題,所以0.2版不再做更多的更新了,我現(xiàn)在的工作主要放在0.3版的設(shè)計(jì)上了。目前已經(jīng)確定的改進(jìn)如下:1.已處理隊(duì)列不再使用.Net自帶的Hashtable,而改用BloomFilter;2.未處理隊(duì)列將變成兩個(gè):A和B,A保持一定數(shù)量的Url,當(dāng)A超出時(shí)向B內(nèi)增加,當(dāng)B滿后寫入磁盤…這

4、樣就可以保證處理更多的Url;3.Spider下載/Mirror處理兩個(gè)模塊將更好的配合,以便同時(shí)處理多個(gè)網(wǎng)站,這些網(wǎng)站可以使用相同規(guī)則,也可以對(duì)應(yīng)不同的處理規(guī)則;4.改進(jìn)索引線程的控制,使其更加靈活5.處理規(guī)則的改進(jìn),內(nèi)存中不再創(chuàng)建DataTable,而是直接采用XmlDocument對(duì)象,這樣就能更加靈活的進(jìn)行處理;6.傳遞對(duì)象—IndexItem的屬性將不限于Url,Title,Body等,可以使用自定義的屬性;0.2文檔范圍目前ShootSearch版本為0.2版,并沒(méi)有使用Ndoc之類的工具來(lái)生成完整的類庫(kù)說(shuō)明之類的說(shuō)明性文檔,同時(shí)因?yàn)镾hootSear

5、ch正在開(kāi)發(fā)中,所以并不推薦最終用戶的使用,因此在說(shuō)明時(shí)可能會(huì)使用一些比較專業(yè)的詞匯,但文檔就此一份,不太好區(qū)分什么開(kāi)發(fā)用戶,最終用戶之類的,有些地方的說(shuō)明可能會(huì)比較的詳細(xì)以致讓部分用戶覺(jué)得有些煩瑣。0.3讀者對(duì)象.Net下面的搜索愛(ài)好者,程序開(kāi)發(fā)人員,系統(tǒng)設(shè)計(jì)人員,最終用戶…源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說(shuō)明書0.4參考文檔源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說(shuō)明書1.產(chǎn)品介紹ShootSearch

6、的研發(fā)代號(hào)為:SpiderMan。你可以理解為蜘蛛俠,而我更愿意認(rèn)為是管理蜘蛛的人:-)。因?yàn)镾hootSearch的最初開(kāi)發(fā)目的是希望能夠?qū)TTP,F(xiàn)TP,本地磁盤和網(wǎng)絡(luò)鄰居磁盤四種資源進(jìn)行檢索。每種資源對(duì)應(yīng)一種蜘蛛程序,而管理這些個(gè)蜘蛛的就可以成為管理蜘蛛的人了。用戶可以設(shè)定要檢索的網(wǎng)址,F(xiàn)TP服務(wù)器或是本地/網(wǎng)絡(luò)磁盤路徑,然后由ShootSearch來(lái)為這些資源做索引,方便搜索。2.產(chǎn)品面向的用戶群體目前ShootSearch還正在開(kāi)發(fā)中,因此用戶主要是一些開(kāi)源軟件的愛(ài)好者,有初級(jí)搜索需求的用戶。3.產(chǎn)品應(yīng)當(dāng)遵循的標(biāo)準(zhǔn)或規(guī)范ShootSearch是基于Lu

7、cene.Net(以前叫DotLucene)的開(kāi)源搜索引擎,采用C#編碼,源碼開(kāi)放,遵守GPL協(xié)議。有關(guān)協(xié)議的英文版請(qǐng)參考:http://www.gnu.org/copyleft/gpl.html中文版詳細(xì)情況請(qǐng)參考:http://www.emule.org.cn/about/gpl/4.SHOOTSEARCH命名空間ShootSearch命名空間如下所示:目錄/程序名類型用途說(shuō)明ShootSearch.Spider類庫(kù)蜘蛛程序ShootSearch.Mirror類庫(kù)鏡像處理程序ShootSearch.Indexer類庫(kù)索引制作程序ShootSearch.Logg

8、er類庫(kù)日

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。