資源描述:
《基于移動(dòng)代理的學(xué)習(xí)資源采集模型的研究與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、1緒論1.1課題來(lái)源與背景網(wǎng)絡(luò)教育融合現(xiàn)代網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)、信息技術(shù)的優(yōu)勢(shì),革新了傳統(tǒng)教育模式,為人們提供了一個(gè)不受時(shí)空限制的全新教育環(huán)境,使實(shí)現(xiàn)大范圍的教育資源共享成為可能。學(xué)習(xí)資源服務(wù)是網(wǎng)絡(luò)教育領(lǐng)域的重要內(nèi)容,學(xué)習(xí)資源服務(wù)質(zhì)量的高低直接影響了網(wǎng)絡(luò)教育的實(shí)際實(shí)施效果。學(xué)習(xí)資源檢索是網(wǎng)絡(luò)教育中學(xué)習(xí)資源服務(wù)的重要內(nèi)容,高效的學(xué)習(xí)資源采集技術(shù)是提高網(wǎng)絡(luò)教育的學(xué)習(xí)資源服務(wù)質(zhì)量的關(guān)鍵要素。移動(dòng)代理是軟件代理中的一種,它除了具有軟件代理的自治性,協(xié)作性,前瞻性[1]等特點(diǎn)外,還具備一般軟件代理所不具備的移動(dòng)性(主動(dòng)地移動(dòng))。移動(dòng)代理技術(shù)的[2
2、]出現(xiàn)源于互聯(lián)網(wǎng)設(shè)備向可移動(dòng)化的發(fā)展。由于移動(dòng)平臺(tái)硬件環(huán)境惡劣,采用獨(dú)立的計(jì)算方式會(huì)導(dǎo)致效率低下甚至無(wú)法完成,移動(dòng)代理技術(shù)的出現(xiàn)使得移動(dòng)終端可以將計(jì)[3]算任務(wù)委托給硬件環(huán)境更好的基站,從而將移動(dòng)終端網(wǎng)絡(luò)中的資源合理利用。移動(dòng)[4]代理技術(shù)是一個(gè)綜合性的技術(shù),它使分布式系統(tǒng)的設(shè)計(jì)、實(shí)現(xiàn)和維護(hù)都簡(jiǎn)單許多。將移動(dòng)代理技術(shù)應(yīng)用于分布式學(xué)習(xí)資源服務(wù)網(wǎng)絡(luò),并基于移動(dòng)代理技術(shù)建立B/S模式的學(xué)習(xí)資源采集系統(tǒng),可以有效的解決用戶個(gè)性化服務(wù),分布式資源檢索等問(wèn)題,實(shí)現(xiàn)較高的學(xué)習(xí)資源服務(wù)質(zhì)量,從而提高網(wǎng)絡(luò)教育資源服務(wù)的整體水平。1.2研究的目的和意義傳統(tǒng)
3、的學(xué)習(xí)資源采集方式是一種基于關(guān)鍵詞的集中式資源采集模式,用戶必須首先訪問(wèn)服務(wù)門戶網(wǎng)站,輸入自己所需要的資源的若干關(guān)鍵詞。該網(wǎng)站有一個(gè)中心管理模塊來(lái)處理這個(gè)請(qǐng)求,然后在數(shù)據(jù)庫(kù)系統(tǒng)中根據(jù)此關(guān)鍵詞對(duì)數(shù)據(jù)庫(kù)中存儲(chǔ)的資源數(shù)據(jù)進(jìn)行比對(duì)和定位,最后將查找到的數(shù)據(jù)反饋給用戶。這種采集模式存在一些缺點(diǎn),如入口單一,網(wǎng)絡(luò)依賴程度高,檢索結(jié)果不準(zhǔn)確等。而本文提出的自主遷移式采集模型在這些問(wèn)題上均有改進(jìn)。1.2.1傳統(tǒng)資源采集模型存在的問(wèn)題傳統(tǒng)的學(xué)習(xí)資源采集模型是建立在SOAP通信協(xié)議之上的。它的具體架構(gòu)如圖1-1所示。11Web服務(wù)器采采采集集集服服服務(wù)務(wù)務(wù)
4、器器器一二三圖1-1集中式采集模型在傳統(tǒng)的學(xué)習(xí)資源采集模型中,用戶登錄學(xué)習(xí)資源發(fā)布網(wǎng)站,輸入查找關(guān)鍵詞,網(wǎng)站對(duì)關(guān)鍵詞進(jìn)行簡(jiǎn)單處理,然后通過(guò)SOAP協(xié)議傳輸?shù)胶笈_(tái)的數(shù)據(jù)服務(wù)器。即用一個(gè)符合SOAP標(biāo)準(zhǔn)的XML文件將檢索信息封裝起來(lái),然后通過(guò)HTTP/HTTPS協(xié)議(通常采用此類協(xié)議,因?yàn)檫@兩種協(xié)議用的范圍更廣,當(dāng)然,也可以采用其他標(biāo)準(zhǔn)協(xié)議或者自定義加密協(xié)議進(jìn)行傳輸)傳輸?shù)絎eb下層。一般大型的學(xué)習(xí)資源發(fā)布網(wǎng)站由于業(yè)務(wù)量大,通常會(huì)采用多服務(wù)器協(xié)作的方式,因此會(huì)通過(guò)一個(gè)負(fù)載均衡器將檢索請(qǐng)求分發(fā)到多個(gè)檢索服務(wù)器上。檢索服務(wù)器首先會(huì)在他本地的文件
5、快照中進(jìn)行檢索,待檢索結(jié)果全部出來(lái)后反饋給負(fù)載均衡器,然后由負(fù)載均衡器反饋給Web服務(wù)器,最后,檢索結(jié)果就顯示在頁(yè)面上。在這里要指出的是,各個(gè)網(wǎng)站后臺(tái)的處理方式仍然是存在差異的。具體差異表現(xiàn)在快照和真實(shí)結(jié)果的選取上。有些網(wǎng)站為了保證檢索結(jié)果的真實(shí)性和全面性不采用快照方式或者索引的方式,后臺(tái)的檢索服務(wù)器就需要實(shí)時(shí)的進(jìn)行網(wǎng)絡(luò)抓取或者遍歷各個(gè)數(shù)據(jù)庫(kù),結(jié)果就是檢索速度會(huì)非常慢。當(dāng)然,如果數(shù)據(jù)量不大,訪問(wèn)量不大,這種方式性能上不會(huì)遇到瓶頸。而有的網(wǎng)站由于訪問(wèn)量和數(shù)據(jù)量超大,如某些門戶網(wǎng)站,信息量均上億級(jí)。它們?yōu)榱俗非笏俣燃锤玫挠脩趔w驗(yàn),往往就會(huì)
6、建立龐大的文件快照和索引,這些快照和索引按照一定的算法保持與真實(shí)數(shù)據(jù)的同步。比如,定時(shí)更新索引快照,循環(huán)更新等。但大體上,現(xiàn)有的學(xué)習(xí)資源采集系統(tǒng)均采用這種簡(jiǎn)單的依靠SOAP通信協(xié)議的集中式的采集模式。傳統(tǒng)檢索模型存在著以下一些缺點(diǎn):1)入口地址單一。用戶必須首先訪問(wèn)特定的搜索網(wǎng)站,然后才能開(kāi)展檢索。如果網(wǎng)站無(wú)法訪問(wèn),或者用戶網(wǎng)絡(luò)狀況不好,暫時(shí)無(wú)法連接網(wǎng)絡(luò),都無(wú)法完成操作;如果需要確保檢索的范圍足夠大,用戶需要反復(fù)登錄多個(gè)相關(guān)網(wǎng)站進(jìn)行逐一檢索,費(fèi)時(shí)費(fèi)力。2)檢索條件單一。由于用戶僅僅是通過(guò)輸入有限的幾個(gè)關(guān)鍵詞進(jìn)行檢索,要準(zhǔn)22確描述自己所
7、需就有一定困難,特別是很多非專業(yè)人士,他們無(wú)法明確描述自己的需求,因此,這些檢索往往得到并不是用戶想要的資源。3)采集到的結(jié)果排序混亂。傳統(tǒng)搜索系統(tǒng)只有一種結(jié)果排序方式,即根據(jù)關(guān)鍵詞匹配程度對(duì)檢索結(jié)果進(jìn)行排序,但是這往往并不是用戶希望看到的排序次序,用戶希望能夠得到多種排序結(jié)果的反饋,如,按資源的邏輯遠(yuǎn)近排序,按資源的熱度排序等。4)結(jié)果不真實(shí)。大多數(shù)搜索網(wǎng)站特別是訪問(wèn)量超大的門戶網(wǎng)站都采用快照方式每隔一定的時(shí)間間隔存儲(chǔ)內(nèi)容,因此往往檢索只是在檢索鏡像或者快照并不是資源本身,實(shí)際上該資源已經(jīng)不存在了。5)資源獲取速度慢。由于這種檢索模型
8、需要先一次性將檢索結(jié)果全部查找出來(lái)再反饋給Web服務(wù)器端顯示,如果匹配量大,則數(shù)據(jù)量會(huì)非常大,用戶等待時(shí)間就是檢索時(shí)間加上網(wǎng)絡(luò)傳輸時(shí)間再加上更新頁(yè)面時(shí)間,這樣,對(duì)用戶來(lái)說(shuō)速度就會(huì)非常非常的慢。雖然有些算法采