面向主題搜索的網(wǎng)絡爬蟲信息采集策略研究

面向主題搜索的網(wǎng)絡爬蟲信息采集策略研究

ID:12498982

大?。?06.50 KB

頁數(shù):196頁

時間:2018-07-17

面向主題搜索的網(wǎng)絡爬蟲信息采集策略研究_第1頁
面向主題搜索的網(wǎng)絡爬蟲信息采集策略研究_第2頁
面向主題搜索的網(wǎng)絡爬蟲信息采集策略研究_第3頁
面向主題搜索的網(wǎng)絡爬蟲信息采集策略研究_第4頁
面向主題搜索的網(wǎng)絡爬蟲信息采集策略研究_第5頁
資源描述:

《面向主題搜索的網(wǎng)絡爬蟲信息采集策略研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。

1、面向主題搜索的網(wǎng)絡爬蟲信息采集策略研究1、相關定義1.1、相關概念VSM中的概念相對較為簡單,其實質(zhì)是把待處理的文檔分詞轉變成多維向量空間中的相應向量進行比較處理,而且VSM可以將抽象的文本相似度轉變?yōu)楦又庇^的空間中的相似度進行計算,它的核心就是文本的向量表示。文檔內(nèi)容經(jīng)過提取特征詞等一系列處理后就可以表示為由特征詞構成的向量空間的向量,此時,文本的相似就可以映射到向量的相似上,也就是向量之間的夾角,那么我們就可以認為這個相似度就是兩個文檔之間的相似度,相似度越大的它們所指的內(nèi)容就越相近,反之相似度越小的它們的內(nèi)容就相差越大。向量空間模型中文檔(Document)、

2、項(Term)、項權重(TermWeight)、向量空間、相似度(similarity)是它的非常重要的概念。向量空間模型也可以稱為詞組向量空間模型,自從Salton研究出來了以后就被廣泛的應用了,實際中在信息抽取、論文檢測、主題相似度評估、搜索引擎有很多的應用,其實質(zhì)是一個以數(shù)學為基礎的應用模型。其中所謂文檔,泛指一般的文本,可以是網(wǎng)頁文本也包含了多媒體文本對象,是可以被詞組表示的文檔。模型中用于計算的項(Term)是指用文檔用包含的部分詞組、短語等表示它所在的文檔內(nèi)容,這些詞組或者詞語等就稱之為項,也就是用于表示文檔的詞組或者短語都叫項。一片文檔D可以表示為D=(

3、T1,T2,T3,)。對于每一個項,每篇文檔中該項所占的比重是不同的,對應著每一個比重Wi(0=1.2、網(wǎng)絡管理數(shù)據(jù)采集系統(tǒng)的消息定義Server端和Collector端是通過JMS消息來進行通信的。JMS消息中包括通用的JMS消息屬性和網(wǎng)管系統(tǒng)中具體的業(yè)務消息的屬性兩部分,下面分別對這兩部分進行介紹。3.1.1JMS消息JMS消息由消息頭、消息屬性和消息體三部分組成。消息頭包含消息的識別信息和路由信息,消息頭包含一些標準的屬性如:JMSDestination,JMSMessageID等。表3.1說明了消息頭的具體屬性以及這些屬性由誰設置。表3.1JMS消息頭的具體屬

4、性消息頭的屬性屬性意義由誰設置JMSDestination消息發(fā)送的目的地。send或publish方法JMSDeliveryMode傳遞模式。有兩種模式:PERSISTENT和NON_PERSISTENT。PERSISTENT表示該消息一定要被送到目的地,否則會導致應用錯誤。NON_PERSISTENT表示偶然丟失該消息是被允許的。這兩種模式使開發(fā)者可以在消息傳遞的可靠性和吞吐量之間找到平衡點。send或publish方法JMSExpiration消息過期時間,等于QueueSender的send方法中的timeToLive值或TopicPublisher的publ

5、ish方法中的timeToLive值加上發(fā)送時刻的GMT時間值。如果timeToLive值等于零,則JMSExpiration被設為零,表示該消息永不過期。如果發(fā)送后,在消息過期時間之后消息還沒有被發(fā)送到目的地,則該消息被清除。send或publish方法19續(xù)表JMSPriority消息優(yōu)先級,從0-9十個級別,0-4是普通消息,5-9是加急消息J。MS不要求JMSProvider嚴格按照這十個優(yōu)先級發(fā)送消息,但必須保證加急消息要先于普通消息到達。send或publish方法JMSMessageID唯一識別每個消息的標識,由JMSProvider產(chǎn)生。send或pu

6、blish方法JMSTimestamp一個消息被提交給JMSProvider到消息被發(fā)出的時間。send或publish方法JMSCorrelationID用來連接到另外一個消息,典型的應用是在回復消息中連接到原消息。客戶JMSReplyTo提供本消息回復消息的目的地址客戶JMSType消息類型的識別符。客戶JMSRedelivered如果一個客戶端收到一個設置了JMSRedelivered屬性的消息,則表示可能該客戶端曾經(jīng)在早些時候收到過該消息,但并沒有簽收(acknowledged)。JMSProvider消息屬性是指除了消息頭中定義好的標準屬性外,JMS通過提供

7、一種機制所增加到消息頭中的新屬性,這些新屬性包含以下幾種:消息頭中原有的一些可選屬性;JMS提供者需要用到的屬性;具體應用需要用到的屬性(我們自己定義的具體的網(wǎng)管消息屬性)。消息體也叫消息類型。JMSAPI定義了5種消息體格式,可以使用不同形式發(fā)送接收數(shù)據(jù)并可以兼容現(xiàn)有的消息格式。表3.2描述了這5種類型。表3.2JMS的消息類型消息類型說明TextMessagejava.lang.String對象,如xml文件內(nèi)容MapMessage名/值對的集合,名是String對象,值類型,可以是Java任何基本類型BytesMessage字節(jié)流StreamM

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。