資源描述:
《基于視覺分塊與語義dom的deep web信息抽取研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、.:10270!TP31113學(xué)號;13扣U1UM學(xué)校代碼分類號.-.■.‘1."...'.主善畔絶乂多碩±學(xué)位論文基于視覺分塊與語義D0M的DeepWeb信息抽取研究學(xué)院:信息與機電工程學(xué)院專業(yè).應(yīng)用技術(shù);計算相I研究方向;數(shù)據(jù)庫.‘.硏究生姓名:述_遮指導(dǎo)教師:V陳軍華_完成日期:2016年4月.,々'■:;/,I■‘■^V..:.?論文獨創(chuàng)性聲明本論文是我個人在導(dǎo)師指導(dǎo)下進
2、巧的研巧工作及取得的研究成果。論文中除了恃別加標(biāo)注和致謝的地方外,不包含其他人或機構(gòu)己經(jīng)發(fā)表或撰寫過的研究成果。其他同志對本研究的啟發(fā)和所做的貢獻均己在論文中做了明確的聲明并表示了謝意。作者簽名;,私^日期;令論文使用授權(quán)聲明本人完全了解上海師范大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,目P;學(xué)校有權(quán),保留送交論文的復(fù)印件允許論文被查閱和借閱;學(xué)校可公布論文的全部或部.‘.分內(nèi)容,可采用影印、縮印或其它手段保存論文。保密的論文在解密后遵守此規(guī)定。%-王期.作者簽名知導(dǎo)師簽名貧
3、卑;毛上海師范大學(xué)碩士學(xué)位論文摘要摘要隱藏在普通搜索引擎的背后,需要用戶提交表單查詢并從后臺數(shù)據(jù)庫中返回結(jié)果頁面才能獲取到的信息,稱為DeepWeb。當(dāng)前對DeepWeb數(shù)據(jù)抽取的研究是一個比較熱門的話題。隨著頁面結(jié)構(gòu)變得越來越復(fù)雜,以及動態(tài)網(wǎng)頁技術(shù)的引入,使得DeepWeb頁面存在異構(gòu)性和半結(jié)構(gòu)化的特點。如何快速有效地從這些半結(jié)構(gòu)化的結(jié)果頁面中抽取用戶感興趣的數(shù)據(jù)以提供特定的服務(wù)成為一個難點。目前研究的主要問題包括:(1)如何有效快速地識別噪聲信息,使得在對原始頁面分析之前盡可能對頁面進行清洗;(2)如何根據(jù)DOM樹結(jié)構(gòu)和
4、頁面視覺信息快速定位頁面的主數(shù)據(jù)區(qū)域;(3)如何不受頁面結(jié)構(gòu)差異的影響盡可能自動地抽取頁面數(shù)據(jù)。針對上述問題,傳統(tǒng)的單一的基于DOM樹的頁面分析方法已經(jīng)無法滿足用戶的需求。因為單一的基于DOM樹的頁面分析方法主要依賴DOM樹的結(jié)構(gòu)特征,需要解析頁面所有的標(biāo)簽將其轉(zhuǎn)化為DOM樹,忽略了頁面的一些有效的視覺特征,并且一旦頁面的結(jié)構(gòu)發(fā)生變化,需要重新對頁面的結(jié)構(gòu)進行分析再抽取。目前,微軟亞洲研究院提出了一種新的頁面數(shù)據(jù)抽取方法—VIPS算法。VIPS算法打破了以往傳統(tǒng)的基于DOM樹抽取方法,從人的視覺角度出發(fā),把頁面分割為一個個有
5、效的視覺塊,并對這些視覺塊進行語義重組,形成一棵視覺塊樹。該算法在DOM樹結(jié)構(gòu)和頁面的語義之間建立了橋梁。本文通過分析DeepWeb結(jié)果頁面的特點,結(jié)合人的視覺特征,在VIPS算法的基礎(chǔ)上提出了一種基于基準(zhǔn)視覺塊的DeepWeb信息抽取方法。該方法首先對頁面的標(biāo)簽進行了分析,在解析器將Web文檔解析成語法樹之前,將Web頁面一些與主題無關(guān)的信息(例如導(dǎo)航欄、廣告)等去除,并對優(yōu)化后的DOM樹利用VIPS算法對其進行語義分塊,分塊后根據(jù)坐標(biāo)位置首先尋找到基準(zhǔn)視覺塊,以該基準(zhǔn)視覺塊作為中心位置逆序和順序遍歷DOM樹并采用線性特征
6、向量判別法尋找所有相似的視覺塊對其進行抽取。從實驗效果來看,本文提出的基于基準(zhǔn)視覺塊的頁面數(shù)據(jù)提取方法具有一定的可行性并在提取數(shù)據(jù)的準(zhǔn)確率方面與傳統(tǒng)的方法相比有了一定的提高。關(guān)鍵詞:數(shù)據(jù)抽??;DOM樹;VIPS算法;視覺特征;基準(zhǔn)視覺塊IShanghaiNormalUniversityMasterofPhilosophyAbstractAbstractTheinformationwhichcanonlybegotfromtheresultpagescalledDeepWeb.Theseresultpagesneedusers
7、tosubmittheformqueryandreturntheresultsfromthedatabasebehind.Currently,theresearchonDeepWebisapopulartopic.Butasthepagestructurebecomesmorecomplex,andtheintroductionofdynamicWebpagetechnology,whichmakestheDeepWebpagesbecomesheterogeneityandsemi-structured.Sohowtoqu
8、icklyandefficientlyextractthedatawhichusersinterestedfromthesesemi-structuredresultspagesinordertoprovideaspecificservicebecomesadifficulty.Curre