基于視覺分塊與語義dom的deep web信息抽取研究

ID：35070182

大?。?.93 MB

頁數(shù)：55頁

時間：2019-03-17

資源描述：

《基于視覺分塊與語義dom的deep web信息抽取研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、．：１０２７０！ＴＰ３１１１３學(xué)號；１３扣Ｕ１ＵＭ學(xué)校代碼分類號．－．■．‘１．＂．．．＇．主善畔絶乂多碩±學(xué)位論文基于視覺分塊與語義Ｄ０Ｍ的ＤｅｅｐＷｅｂ信息抽取研究學(xué)院：信息與機電工程學(xué)院專業(yè)．應(yīng)用技術(shù)；計算相Ｉ研究方向；數(shù)據(jù)庫．‘．硏究生姓名：述＿遮指導(dǎo)教師：Ｖ陳軍華＿完成日期：２０１６年４月．，々＇■：；／，Ｉ■‘■＾Ｖ．．：．？論文獨創(chuàng)性聲明本論文是我個人在導(dǎo)師指導(dǎo)下進

2、巧的研巧工作及取得的研究成果。論文中除了恃別加標(biāo)注和致謝的地方外，不包含其他人或機構(gòu)己經(jīng)發(fā)表或撰寫過的研究成果。其他同志對本研究的啟發(fā)和所做的貢獻均己在論文中做了明確的聲明并表示了謝意。作者簽名；，私＾日期；令論文使用授權(quán)聲明本人完全了解上海師范大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定，目Ｐ；學(xué)校有權(quán)，保留送交論文的復(fù)印件允許論文被查閱和借閱；學(xué)校可公布論文的全部或部．‘．分內(nèi)容，可采用影印、縮印或其它手段保存論文。保密的論文在解密后遵守此規(guī)定。％－王期．作者簽名知導(dǎo)師簽名貧

3、卑；毛上海師范大學(xué)碩士學(xué)位論文摘要摘要隱藏在普通搜索引擎的背后，需要用戶提交表單查詢并從后臺數(shù)據(jù)庫中返回結(jié)果頁面才能獲取到的信息，稱為DeepWeb。當(dāng)前對DeepWeb數(shù)據(jù)抽取的研究是一個比較熱門的話題。隨著頁面結(jié)構(gòu)變得越來越復(fù)雜，以及動態(tài)網(wǎng)頁技術(shù)的引入，使得DeepWeb頁面存在異構(gòu)性和半結(jié)構(gòu)化的特點。如何快速有效地從這些半結(jié)構(gòu)化的結(jié)果頁面中抽取用戶感興趣的數(shù)據(jù)以提供特定的服務(wù)成為一個難點。目前研究的主要問題包括：(1)如何有效快速地識別噪聲信息，使得在對原始頁面分析之前盡可能對頁面進行清洗；(2)如何根據(jù)DOM樹結(jié)構(gòu)和

4、頁面視覺信息快速定位頁面的主數(shù)據(jù)區(qū)域；（3）如何不受頁面結(jié)構(gòu)差異的影響盡可能自動地抽取頁面數(shù)據(jù)。針對上述問題，傳統(tǒng)的單一的基于DOM樹的頁面分析方法已經(jīng)無法滿足用戶的需求。因為單一的基于DOM樹的頁面分析方法主要依賴DOM樹的結(jié)構(gòu)特征，需要解析頁面所有的標(biāo)簽將其轉(zhuǎn)化為DOM樹，忽略了頁面的一些有效的視覺特征，并且一旦頁面的結(jié)構(gòu)發(fā)生變化，需要重新對頁面的結(jié)構(gòu)進行分析再抽取。目前，微軟亞洲研究院提出了一種新的頁面數(shù)據(jù)抽取方法—VIPS算法。VIPS算法打破了以往傳統(tǒng)的基于DOM樹抽取方法，從人的視覺角度出發(fā)，把頁面分割為一個個有

5、效的視覺塊，并對這些視覺塊進行語義重組，形成一棵視覺塊樹。該算法在DOM樹結(jié)構(gòu)和頁面的語義之間建立了橋梁。本文通過分析DeepWeb結(jié)果頁面的特點，結(jié)合人的視覺特征，在VIPS算法的基礎(chǔ)上提出了一種基于基準(zhǔn)視覺塊的DeepWeb信息抽取方法。該方法首先對頁面的標(biāo)簽進行了分析，在解析器將Web文檔解析成語法樹之前，將Web頁面一些與主題無關(guān)的信息（例如導(dǎo)航欄、廣告）等去除，并對優(yōu)化后的DOM樹利用VIPS算法對其進行語義分塊，分塊后根據(jù)坐標(biāo)位置首先尋找到基準(zhǔn)視覺塊，以該基準(zhǔn)視覺塊作為中心位置逆序和順序遍歷DOM樹并采用線性特征

6、向量判別法尋找所有相似的視覺塊對其進行抽取。從實驗效果來看，本文提出的基于基準(zhǔn)視覺塊的頁面數(shù)據(jù)提取方法具有一定的可行性并在提取數(shù)據(jù)的準(zhǔn)確率方面與傳統(tǒng)的方法相比有了一定的提高。關(guān)鍵詞：數(shù)據(jù)抽??；DOM樹；VIPS算法；視覺特征；基準(zhǔn)視覺塊IShanghaiNormalUniversityMasterofPhilosophyAbstractAbstractTheinformationwhichcanonlybegotfromtheresultpagescalledDeepWeb.Theseresultpagesneedusers

7、tosubmittheformqueryandreturntheresultsfromthedatabasebehind.Currently,theresearchonDeepWebisapopulartopic.Butasthepagestructurebecomesmorecomplex,andtheintroductionofdynamicWebpagetechnology,whichmakestheDeepWebpagesbecomesheterogeneityandsemi-structured.Sohowtoqu

8、icklyandefficientlyextractthedatawhichusersinterestedfromthesesemi-structuredresultspagesinordertoprovideaspecificservicebecomesadifficulty.Curre

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 55



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于視覺分塊與語義dom的deep web信息抽取研究

基于視覺分塊與語義dom的deep web信息抽取研究

相關(guān)文章

相關(guān)標(biāo)簽