資源描述:
《面向主題搜索的網(wǎng)絡(luò)爬蟲(chóng)信息采集策略研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、面向主題搜索的網(wǎng)絡(luò)爬蟲(chóng)信息采集策略研究1、相關(guān)定義1.1、相關(guān)概念VSM中的概念相對(duì)較為簡(jiǎn)單,其實(shí)質(zhì)是把待處理的文檔分詞轉(zhuǎn)變成多維向量空間中的相應(yīng)向量進(jìn)行比較處理,而且VSM可以將抽象的文本相似度轉(zhuǎn)變?yōu)楦又庇^的空間中的相似度進(jìn)行計(jì)算,它的核心就是文本的向量表示。文檔內(nèi)容經(jīng)過(guò)提取特征詞等一系列處理后就可以表示為由特征詞構(gòu)成的向量空間的向量,此時(shí),文本的相似就可以映射到向量的相似上,也就是向量之間的夾角,那么我們就可以認(rèn)為這個(gè)相似度就是兩個(gè)文檔之間的相似度,相似度越大的它們所指的內(nèi)容就越相近,反之相似度越小的它們的內(nèi)容就相差越大。向量空間模型中文檔(Document)、
2、項(xiàng)(Term)、項(xiàng)權(quán)重(TermWeight)、向量空間、相似度(similarity)是它的非常重要的概念。向量空間模型也可以稱為詞組向量空間模型,自從Salton研究出來(lái)了以后就被廣泛的應(yīng)用了,實(shí)際中在信息抽取、論文檢測(cè)、主題相似度評(píng)估、搜索引擎有很多的應(yīng)用,其實(shí)質(zhì)是一個(gè)以數(shù)學(xué)為基礎(chǔ)的應(yīng)用模型。其中所謂文檔,泛指一般的文本,可以是網(wǎng)頁(yè)文本也包含了多媒體文本對(duì)象,是可以被詞組表示的文檔。模型中用于計(jì)算的項(xiàng)(Term)是指用文檔用包含的部分詞組、短語(yǔ)等表示它所在的文檔內(nèi)容,這些詞組或者詞語(yǔ)等就稱之為項(xiàng),也就是用于表示文檔的詞組或者短語(yǔ)都叫項(xiàng)。一片文檔D可以表示為D=(
3、T1,T2,T3,)。對(duì)于每一個(gè)項(xiàng),每篇文檔中該項(xiàng)所占的比重是不同的,對(duì)應(yīng)著每一個(gè)比重Wi(0=1.2、網(wǎng)絡(luò)管理數(shù)據(jù)采集系統(tǒng)的消息定義Server端和Collector端是通過(guò)JMS消息來(lái)進(jìn)行通信的。JMS消息中包括通用的JMS消息屬性和網(wǎng)管系統(tǒng)中具體的業(yè)務(wù)消息的屬性兩部分,下面分別對(duì)這兩部分進(jìn)行介紹。3.1.1JMS消息JMS消息由消息頭、消息屬性和消息體三部分組成。消息頭包含消息的識(shí)別信息和路由信息,消息頭包含一些標(biāo)準(zhǔn)的屬性如:JMSDestination,JMSMessageID等。表3.1說(shuō)明了消息頭的具體屬性以及這些屬性由誰(shuí)設(shè)置。表3.1JMS消息頭的具體屬
4、性消息頭的屬性屬性意義由誰(shuí)設(shè)置JMSDestination消息發(fā)送的目的地。send或publish方法JMSDeliveryMode傳遞模式。有兩種模式:PERSISTENT和NON_PERSISTENT。PERSISTENT表示該消息一定要被送到目的地,否則會(huì)導(dǎo)致應(yīng)用錯(cuò)誤。NON_PERSISTENT表示偶然丟失該消息是被允許的。這兩種模式使開(kāi)發(fā)者可以在消息傳遞的可靠性和吞吐量之間找到平衡點(diǎn)。send或publish方法JMSExpiration消息過(guò)期時(shí)間,等于QueueSender的send方法中的timeToLive值或TopicPublisher的publ
5、ish方法中的timeToLive值加上發(fā)送時(shí)刻的GMT時(shí)間值。如果timeToLive值等于零,則JMSExpiration被設(shè)為零,表示該消息永不過(guò)期。如果發(fā)送后,在消息過(guò)期時(shí)間之后消息還沒(méi)有被發(fā)送到目的地,則該消息被清除。send或publish方法19續(xù)表JMSPriority消息優(yōu)先級(jí),從0-9十個(gè)級(jí)別,0-4是普通消息,5-9是加急消息J。MS不要求JMSProvider嚴(yán)格按照這十個(gè)優(yōu)先級(jí)發(fā)送消息,但必須保證加急消息要先于普通消息到達(dá)。send或publish方法JMSMessageID唯一識(shí)別每個(gè)消息的標(biāo)識(shí),由JMSProvider產(chǎn)生。send或pu
6、blish方法JMSTimestamp一個(gè)消息被提交給JMSProvider到消息被發(fā)出的時(shí)間。send或publish方法JMSCorrelationID用來(lái)連接到另外一個(gè)消息,典型的應(yīng)用是在回復(fù)消息中連接到原消息??蛻鬔MSReplyTo提供本消息回復(fù)消息的目的地址客戶JMSType消息類型的識(shí)別符??蛻鬔MSRedelivered如果一個(gè)客戶端收到一個(gè)設(shè)置了JMSRedelivered屬性的消息,則表示可能該客戶端曾經(jīng)在早些時(shí)候收到過(guò)該消息,但并沒(méi)有簽收(acknowledged)。JMSProvider消息屬性是指除了消息頭中定義好的標(biāo)準(zhǔn)屬性外,JMS通過(guò)提供
7、一種機(jī)制所增加到消息頭中的新屬性,這些新屬性包含以下幾種:消息頭中原有的一些可選屬性;JMS提供者需要用到的屬性;具體應(yīng)用需要用到的屬性(我們自己定義的具體的網(wǎng)管消息屬性)。消息體也叫消息類型。JMSAPI定義了5種消息體格式,可以使用不同形式發(fā)送接收數(shù)據(jù)并可以兼容現(xiàn)有的消息格式。表3.2描述了這5種類型。表3.2JMS的消息類型消息類型說(shuō)明TextMessagejava.lang.String對(duì)象,如xml文件內(nèi)容MapMessage名/值對(duì)的集合,名是String對(duì)象,值類型,可以是Java任何基本類型BytesMessage字節(jié)流StreamM