資源描述:
《.net分詞搜索程序說(shuō)明書(shū)》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、.Net分詞搜索程序說(shuō)明書(shū)ShootSearch(開(kāi)發(fā)代號(hào):SpiderMan)說(shuō)明書(shū)文件狀態(tài):[√]草稿[]正式發(fā)布[]正在修改文件標(biāo)識(shí):ShootSunStudio-SpiderMan-20070815當(dāng)前版本:0.1作者:YinJun完成日期:未完成ShootSunStudio射日工作室http://www.shootsoft.netsupport@shootsoft.net源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說(shuō)明書(shū)版本歷史版本/狀態(tài)作者參與者起止日期備注0.1尹君無(wú)2007/8
2、/152006/8/17源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說(shuō)明書(shū)目錄0.文檔介紹40.1文檔目的40.2文檔范圍40.3讀者對(duì)象40.4參考文檔51.產(chǎn)品介紹62.產(chǎn)品面向的用戶(hù)群體63.產(chǎn)品應(yīng)當(dāng)遵循的標(biāo)準(zhǔn)或規(guī)范64.ShootSearch命名空間65.ShootSearch的使用75.1站內(nèi)搜索75.2遠(yuǎn)程采集9源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說(shuō)明書(shū)0.文檔介紹本文檔主要介紹有關(guān)ShootSearc
3、h(開(kāi)發(fā)代號(hào):SpiderMan)的各組件類(lèi)庫(kù)和如何使用ShootSearch來(lái)進(jìn)行數(shù)據(jù)的采集和搜索。0.1文檔目的因?yàn)镾hootSearch(開(kāi)發(fā)代號(hào):SpiderMan)并沒(méi)有一個(gè)比較系統(tǒng)的介紹,所以為了方便大家使用也為了規(guī)范以后的開(kāi)發(fā),特編寫(xiě)此文檔。因?yàn)?.2版在架構(gòu)上出了點(diǎn)問(wèn)題,所以0.2版不再做更多的更新了,我現(xiàn)在的工作主要放在0.3版的設(shè)計(jì)上了。目前已經(jīng)確定的改進(jìn)如下:1.已處理隊(duì)列不再使用.Net自帶的Hashtable,而改用BloomFilter;2.未處理隊(duì)列將變成兩個(gè):A和B,A保持一定數(shù)量的Url,當(dāng)A超出時(shí)向B內(nèi)增加,當(dāng)B滿(mǎn)后寫(xiě)入磁盤(pán)…這
4、樣就可以保證處理更多的Url;3.Spider下載/Mirror處理兩個(gè)模塊將更好的配合,以便同時(shí)處理多個(gè)網(wǎng)站,這些網(wǎng)站可以使用相同規(guī)則,也可以對(duì)應(yīng)不同的處理規(guī)則;4.改進(jìn)索引線(xiàn)程的控制,使其更加靈活5.處理規(guī)則的改進(jìn),內(nèi)存中不再創(chuàng)建DataTable,而是直接采用XmlDocument對(duì)象,這樣就能更加靈活的進(jìn)行處理;6.傳遞對(duì)象—IndexItem的屬性將不限于Url,Title,Body等,可以使用自定義的屬性;0.2文檔范圍目前ShootSearch版本為0.2版,并沒(méi)有使用Ndoc之類(lèi)的工具來(lái)生成完整的類(lèi)庫(kù)說(shuō)明之類(lèi)的說(shuō)明性文檔,同時(shí)因?yàn)镾hootSear
5、ch正在開(kāi)發(fā)中,所以并不推薦最終用戶(hù)的使用,因此在說(shuō)明時(shí)可能會(huì)使用一些比較專(zhuān)業(yè)的詞匯,但文檔就此一份,不太好區(qū)分什么開(kāi)發(fā)用戶(hù),最終用戶(hù)之類(lèi)的,有些地方的說(shuō)明可能會(huì)比較的詳細(xì)以致讓部分用戶(hù)覺(jué)得有些煩瑣。0.3讀者對(duì)象.Net下面的搜索愛(ài)好者,程序開(kāi)發(fā)人員,系統(tǒng)設(shè)計(jì)人員,最終用戶(hù)…源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說(shuō)明書(shū)0.4參考文檔源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說(shuō)明書(shū)1.產(chǎn)品介紹ShootSearch
6、的研發(fā)代號(hào)為:SpiderMan。你可以理解為蜘蛛俠,而我更愿意認(rèn)為是管理蜘蛛的人:-)。因?yàn)镾hootSearch的最初開(kāi)發(fā)目的是希望能夠?qū)TTP,F(xiàn)TP,本地磁盤(pán)和網(wǎng)絡(luò)鄰居磁盤(pán)四種資源進(jìn)行檢索。每種資源對(duì)應(yīng)一種蜘蛛程序,而管理這些個(gè)蜘蛛的就可以成為管理蜘蛛的人了。用戶(hù)可以設(shè)定要檢索的網(wǎng)址,F(xiàn)TP服務(wù)器或是本地/網(wǎng)絡(luò)磁盤(pán)路徑,然后由ShootSearch來(lái)為這些資源做索引,方便搜索。2.產(chǎn)品面向的用戶(hù)群體目前ShootSearch還正在開(kāi)發(fā)中,因此用戶(hù)主要是一些開(kāi)源軟件的愛(ài)好者,有初級(jí)搜索需求的用戶(hù)。3.產(chǎn)品應(yīng)當(dāng)遵循的標(biāo)準(zhǔn)或規(guī)范ShootSearch是基于Lu
7、cene.Net(以前叫DotLucene)的開(kāi)源搜索引擎,采用C#編碼,源碼開(kāi)放,遵守GPL協(xié)議。有關(guān)協(xié)議的英文版請(qǐng)參考:http://www.gnu.org/copyleft/gpl.html中文版詳細(xì)情況請(qǐng)參考:http://www.emule.org.cn/about/gpl/4.SHOOTSEARCH命名空間ShootSearch命名空間如下所示:目錄/程序名類(lèi)型用途說(shuō)明ShootSearch.Spider類(lèi)庫(kù)蜘蛛程序ShootSearch.Mirror類(lèi)庫(kù)鏡像處理程序ShootSearch.Indexer類(lèi)庫(kù)索引制作程序ShootSearch.Logg
8、er類(lèi)庫(kù)日