基于heritrix和sphinx的購物比較搜索引擎研究

基于heritrix和sphinx的購物比較搜索引擎研究

ID:11735017

大?。?8.00 KB

頁數(shù):6頁

時(shí)間:2018-07-13

基于heritrix和sphinx的購物比較搜索引擎研究_第1頁
基于heritrix和sphinx的購物比較搜索引擎研究_第2頁
基于heritrix和sphinx的購物比較搜索引擎研究_第3頁
基于heritrix和sphinx的購物比較搜索引擎研究_第4頁
基于heritrix和sphinx的購物比較搜索引擎研究_第5頁
資源描述:

《基于heritrix和sphinx的購物比較搜索引擎研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫

1、基于Heritrix和Sphinx的購物比較搜索引擎研究  隨著網(wǎng)絡(luò)商品的極大豐富和分類的細(xì)化,搜索引擎已成為購物信息的重要來源。比較購物搜索引擎是一種基于專業(yè)化的垂直搜索引擎,通過對電子商務(wù)網(wǎng)站或者部分實(shí)體店的商品信息進(jìn)行采集和整理,向消費(fèi)者提供特定準(zhǔn)確的商品信息及相關(guān)輔助設(shè)施,減少信息不對稱,優(yōu)化購買決策;同時(shí),幫助商家降低推廣成本獲得針對性極高的目標(biāo)用戶,是未來網(wǎng)絡(luò)購物搜索的發(fā)展趨勢。然而,目前國內(nèi)的比較購物引擎普遍追求“大而全”,在細(xì)化用戶需求和購物體驗(yàn)上較為欠缺。商品信息比較偏重價(jià)格方面,對影響購物體驗(yàn)的其他因素,諸如商家信譽(yù)、折扣降價(jià)、用戶評價(jià)、退換條款等較少涉及。本文

2、提出采用Heritrix和Sphinx技術(shù)搭建購物搜索引擎,將國內(nèi)大型B2C網(wǎng)站作為爬取信息來源,運(yùn)用聚焦爬蟲技術(shù)將目標(biāo)定為抓取與用戶某一特定體驗(yàn)主題內(nèi)容相關(guān)的網(wǎng)頁,以期更好的細(xì)分消費(fèi)者人群,有針對性地滿足用戶體驗(yàn)?! ∫?、Heritrix和Sphinx技術(shù)特點(diǎn)  Heritrix工作原理  Heritrix是一款基于java語言開發(fā)的開源網(wǎng)絡(luò)爬蟲,用于對網(wǎng)上的資源進(jìn)行歸檔,建立網(wǎng)絡(luò)數(shù)字圖書館,目前已經(jīng)建立了400TB的數(shù)據(jù)。  Heritrix爬蟲每次只對一張網(wǎng)頁的內(nèi)容深度復(fù)制,包括獲取圖像以及其它非文本內(nèi)容,抓取并存儲相關(guān)的內(nèi)容。具體篩爬過程中,爬蟲先從隊(duì)列中取出下一個(gè)URL,

3、通過HTTP協(xié)議將對應(yīng)的網(wǎng)頁爬取下來,然后解析內(nèi)容,并且提取出包含的URL,將其中新發(fā)現(xiàn)的URL追加到隊(duì)列中。最后將網(wǎng)頁存放到本地磁盤的網(wǎng)頁庫中。爬取過程在積累到一定數(shù)量網(wǎng)頁時(shí)即可終止,或者在隊(duì)列為空的時(shí)候終止。  工作原理  Sphinx是一個(gè)基于SQL的全文檢索引擎,本系統(tǒng)所采用的是基于Sphinx研發(fā)并獨(dú)立發(fā)布的Coreseek,是一款專攻中文搜索和信息處理的中文全文檢索/搜索軟件,它適用于行業(yè)/垂直搜索、論壇/站內(nèi)搜索、數(shù)據(jù)庫搜索聯(lián)盟、文檔/文獻(xiàn)檢索、信息檢索、數(shù)據(jù)挖掘等應(yīng)用場景。Sphinx整個(gè)系統(tǒng)主要由索引建立和維護(hù)程序、查詢服務(wù)程序、輔助工具程序三大部分組成?! 《?、

4、比較購物搜索引擎系統(tǒng)構(gòu)建  系統(tǒng)架構(gòu)  系統(tǒng)整體架構(gòu)由四部分組成:1)由Heritrix擴(kuò)展而來的爬蟲系統(tǒng),負(fù)責(zé)從互聯(lián)網(wǎng)抓取商品相關(guān)的信息。2)MySQL數(shù)據(jù)庫,存儲由Heritrix抓取的數(shù)據(jù)。3)Sphinx全文索引服務(wù)器,負(fù)責(zé)對商品建立全文索引。4)Tomcat服務(wù)器,負(fù)責(zé)向客戶端提供搜索服務(wù)。具體系統(tǒng)整體架構(gòu)圖如圖1?! ≡诔跏蓟A段,Heritrix任務(wù)需事先通過配置和測試,確認(rèn)后可由Linux系統(tǒng)通過Cron來自動調(diào)度。根據(jù)用戶輸入的商品信息,網(wǎng)絡(luò)爬蟲的每個(gè)抓取任務(wù)只負(fù)責(zé)單個(gè)購物網(wǎng)站數(shù)據(jù)的抓取,但每個(gè)任務(wù)的線程數(shù)量可由實(shí)際情況進(jìn)行調(diào)整。篩爬啟動和結(jié)束時(shí)間通過Bash腳本

5、來監(jiān)控,每隔一定的時(shí)間去檢測相應(yīng)的進(jìn)程是否已經(jīng)結(jié)束,如果某個(gè)抓取任務(wù)結(jié)束,則設(shè)定好下一次啟動的時(shí)間間隔。在本文構(gòu)建的模型中采用MySQL數(shù)據(jù)庫存儲篩爬的信息,但直接從MySQL數(shù)據(jù)庫生成全文索引讀取比較費(fèi)時(shí),因此采用基于SQL的全文檢索引擎Sphinx結(jié)合MySQL,以“主索引+增量索引”的模式,大部分的搜索都集中在Sphinx全文索引中,少量數(shù)據(jù)可能需要直接訪問MySQL數(shù)據(jù)庫,這樣可以使應(yīng)用程序更容易實(shí)現(xiàn)專業(yè)化的全文檢索。具體運(yùn)行過程中通過Cron設(shè)定計(jì)劃任務(wù),每隔一定的時(shí)間,Sphinx會從MySQL數(shù)據(jù)庫生成增量索引,然后執(zhí)行主索引和增量索引的合并,并且在后臺操作過程中,一

6、直可以向客戶提供搜索服務(wù)。  數(shù)據(jù)存儲模型的建立  目前各種購物平臺和測評網(wǎng)站給出的商品信息異常復(fù)雜,每個(gè)網(wǎng)站的頁面都有自身特定的格式,相同商品在不同網(wǎng)站上也不盡相同,尤其是不同類型的商品在屬性上差異極大,因此,需要建立統(tǒng)一的數(shù)據(jù)模型存儲數(shù)據(jù),也即通過多張表能夠描述各種類型商品的基本屬性,而不需要針對每種商品建立不同的存儲表。本設(shè)計(jì)中構(gòu)建了商品表、商品別名表、品牌表、信息采集表、信息采集元數(shù)據(jù)表、商品路徑表、網(wǎng)站表、店鋪表和商品類別表等一系列數(shù)據(jù)模型。以商品信息表為例,如表2-1所示?! ”?-1商品表  字段名定義類型特性說明  idbigintunsigned自增、主鍵商品id

7、  namevarchar非空、全文索引商品的名字  brand_idbigintunsigned外鍵品牌id  instance_idvarchar非空ISBN,ISRC,型號等  is_uniquebool非空是否唯一  datetimedatetime非空創(chuàng)建時(shí)間  instance_id可以是型號、貨號、ISBN、ISRC等用來區(qū)分商品的編號。大部分商品都會有型號,因此只要有相同品牌且型號相同,就可以肯定是同一種商品。brand_id指向brand,指品牌如T

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。