資源描述:
《面向領(lǐng)域的deep+web查詢接口發(fā)現(xiàn)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、暨南大學(xué)碩士學(xué)位論文題名(中英對(duì)照):面向領(lǐng)域的DeepWeb查詢接口發(fā)現(xiàn)研究Researchonthedomain-orientedDeepWebqueryinterfacediscovery作者姓名:李振興指導(dǎo)教師姓名及學(xué)位、職稱:劉波教授學(xué)科、專業(yè)名稱:計(jì)算機(jī)應(yīng)用技術(shù)論文提交日期:2014年4月20日論文答辯日期:2014年6月8日答辯委員會(huì)主席:論文評(píng)閱人:學(xué)位授予單位和日期:獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或
2、撰寫(xiě)過(guò)的研究成果,也不包含為獲得暨南大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書(shū)而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示謝意。學(xué)位論文作者簽名:簽字日期:年月日學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解暨南大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)部門(mén)或機(jī)構(gòu)送交論文的復(fù)印件和磁盤(pán),允許論文被查閱和借閱。本人授權(quán)暨南大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后適用本授權(quán)書(shū))學(xué)位論文作者簽名:導(dǎo)師
3、簽名:簽字日期:年月日簽字日期:年月日學(xué)位論文作者畢業(yè)后去向:工作單位:電話:通訊地址:郵編:暨南大學(xué)碩士學(xué)位論文面向領(lǐng)域的DeepWeb查詢接口發(fā)現(xiàn)研究摘要深層網(wǎng)絡(luò)指的是位于表層網(wǎng)絡(luò)之下所隱藏的數(shù)據(jù),需要用戶填寫(xiě)表單發(fā)送查詢請(qǐng)求才能獲取,其數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過(guò)表層網(wǎng)絡(luò)且信息價(jià)值巨大。由此原因,如何挖掘出位于深層網(wǎng)絡(luò)中的海量數(shù)據(jù)成為了研究熱點(diǎn),特別是DeepWeb的信息集成研究尤為重要。DeepWeb數(shù)據(jù)集成中的第一步是Web數(shù)據(jù)庫(kù)的發(fā)現(xiàn),也就是查詢接口的發(fā)現(xiàn)。但由于深層網(wǎng)絡(luò)的數(shù)據(jù)位于眾多的web數(shù)據(jù)庫(kù)中,并且處于不斷的變化中,相應(yīng)的接
4、口也可能隨之改變,增大了獲取的難度。其中最為突出的技術(shù)難點(diǎn)是:一,Web數(shù)據(jù)庫(kù)分布廣泛且數(shù)量巨大,獲取包含查詢接口的網(wǎng)頁(yè)信息的效率問(wèn)題有待提高;二,查詢接口都是以表單的形式存在,但并非所有的表單都是查詢接口,如何從中正確地篩選出DeepWeb查詢接口、提高分類(lèi)正確性也是亟待解決的問(wèn)題。圍繞著DeepWeb查詢接口發(fā)現(xiàn)中的兩個(gè)難題,本文主要做了以下工作:首先,對(duì)DeepWeb進(jìn)行研究,其中包括DeepWeb的概念、規(guī)模、存在方式、獲得方法以及DeepWeb查詢接口發(fā)現(xiàn)中的一些關(guān)鍵問(wèn)題,提出本文研究的研究方向和內(nèi)容。其次,對(duì)查詢接口發(fā)
5、現(xiàn)中用到的相關(guān)技術(shù)進(jìn)行分析,包括通常用的DOM解析和啟發(fā)式規(guī)則研究,然后分析了查詢接口發(fā)現(xiàn)的主要算法,并進(jìn)行比較。再次,針對(duì)面向領(lǐng)域的DeepWeb查詢接口獲取的效率問(wèn)題,本文提出了一種查詢接口發(fā)現(xiàn)算法,包括基于單線程和多線程算法,并進(jìn)行試驗(yàn)對(duì)比,結(jié)果顯示基于多線程的算法效率提升顯著。最后,為了從獲取的網(wǎng)頁(yè)表單中正確地篩選出DeepWeb查詢接口,本文在前人研究的基礎(chǔ)上,提出了基于啟發(fā)式規(guī)則的K最近鄰算法,用于從表單中正確識(shí)別出DeepWeb查詢接口,為了進(jìn)行實(shí)驗(yàn)驗(yàn)證,本文從多種途徑多個(gè)領(lǐng)域取得查詢接口和非查詢接口,并分別進(jìn)行實(shí)驗(yàn)
6、,實(shí)驗(yàn)結(jié)果表明,該算法能明顯提高對(duì)DeepWeb查詢接口的辨別能力,特別市在面向圖書(shū)領(lǐng)域的實(shí)例中,在查重率和查全率方面都有明顯提升。關(guān)鍵詞:DeepWeb,查詢接口,多線程,K最近鄰算法I暨南大學(xué)碩士學(xué)位論文面向領(lǐng)域的DeepWeb查詢接口發(fā)現(xiàn)研究AbstractThedeepwebreferstodatathatlocatedbeneaththesurfacenetwork,theamountofdataandvaluefarexceedsthesurfacenetwork.Thusthereason,howtodigdeepn
7、etworkhasbecomeahottopic,especiallytheDeepWebinformationintegrationresearchisparticularlyimportant.ThefirststepintheDeepWebdataintegrationistofindtheWebdatabase,whichisfindthequeryinterface.Someofthemostprominenttechnicaldifficultiesare:First,theefficiencyofwebaccesst
8、oinformationcontainedqueryinterfacesneedstobeimproved;Second,thequeryinterfacesareintheformoftheformexist,butnotallformsareq