資源描述:
《用于deep web數(shù)據(jù)集成的數(shù)據(jù)抽取技術(shù)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、密級:渺歹?Z擎碩士學(xué)位論文⑧論文題目用于DeepW-eb數(shù)據(jù)集成的數(shù)據(jù)抽取技術(shù)作者姓名籃世叁指導(dǎo)教師奎董副塾拯學(xué)科(專業(yè))讓篡扭應(yīng)用這苤所在學(xué)院讓篡扭堂醫(yī)提交日期2Q!壘生!月§曼ADissertationSubmittedtoZhejiangUniversityfortheDegreeofMasterofEngineering1—1一⑧TITLE:DataExtractionTechnologyused...forDeepWebDataIntegrationAuthor:圣h壘塾g苧b!莖!nSupervisor:AssociatePro
2、fessorLiYingSubject:ComputerApplicationTechnology..——College:C.omputerScienceandTechnology.——SubmittedDate:Jan.5.2013獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得迸姿盤堂或其他教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝
3、意。學(xué)位論文作者簽名:簽字目期:年月日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解逝望盤堂有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)迸姿盤堂可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后適用本授權(quán)書)學(xué)位論文作者簽名:簽字同期:導(dǎo)師簽名:簽字閂期:浙江大學(xué)碩士學(xué)位論文摘要隨著云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的興起,以及以社交網(wǎng)絡(luò)、基于地理位置服務(wù)LBS為代表的新型信息發(fā)布方式的涌現(xiàn),社會信息化程度不
4、斷提高,信息系統(tǒng)產(chǎn)生了越來越多的數(shù)據(jù),大數(shù)據(jù)時(shí)代來臨了。大數(shù)據(jù)具有四大特征:Volume,Velocity,Variety,Veracity。從大數(shù)據(jù)的Variety特征可以看出,在大數(shù)據(jù)環(huán)境下的數(shù)據(jù)種類多樣和來源繁多,有類似于關(guān)系型數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),類似視頻、音頻等的非結(jié)構(gòu)化數(shù)據(jù),也有來大量的半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化的數(shù)據(jù)所占的份額越來越多,蘊(yùn)含的價(jià)值也越來越大。半結(jié)構(gòu)化數(shù)據(jù)來源之一是DeepWeb。DeepWeb是指Web中不能被傳統(tǒng)的搜索引擎索引到的那部分內(nèi)容,內(nèi)容數(shù)據(jù)來自于能夠被在線訪問的數(shù)據(jù)庫中,只能通過相應(yīng)的查詢接口動態(tài)提交查詢信
5、息來訪問其蘊(yùn)含的內(nèi)容。DeepWeb數(shù)據(jù)信息量大,質(zhì)量好,結(jié)構(gòu)好。DeepWeb的數(shù)據(jù)是以半結(jié)構(gòu)化的HTML頁面返回的,為了利用來自于DeepWeb中的半結(jié)構(gòu)化數(shù)據(jù),如何自動化的從DeepWeb中將半結(jié)構(gòu)化的數(shù)據(jù)抽取出來,轉(zhuǎn)換為某種結(jié)構(gòu)化的數(shù)據(jù)是亟需解決的問題。論文首先分析了DeepWeb數(shù)據(jù)抽取需要面對的問題,介紹了現(xiàn)有的研究方法,針對現(xiàn)有研究方法的不足以及結(jié)合Web結(jié)果頁面的特點(diǎn),提出一種數(shù)據(jù)抽取方法,并設(shè)計(jì)基于該方法的原型系統(tǒng)。本文的研究包括提出一種基于DOM樹層次結(jié)構(gòu)、值類型以及外觀樣式CSS相似的樹匹配算法用于對Web頁面進(jìn)行劃分,
6、改進(jìn)了簡單樹匹配算法不能真實(shí)反映樹相似匹配的缺點(diǎn),然后在樹相似匹配的結(jié)果之上基于最長重復(fù)子序列實(shí)現(xiàn)一種新穎的用于識別數(shù)據(jù)記錄邊界的方法,接著在總結(jié)大量Web結(jié)果頁面的特征基礎(chǔ)下,基于外觀樣式信息總結(jié)出一些啟發(fā)式規(guī)則能夠非常準(zhǔn)確的過濾噪音信息選擇出主數(shù)據(jù)區(qū)域,最后本文利用改進(jìn)型的樹匹配算法實(shí)現(xiàn)局部樹數(shù)據(jù)記錄對齊算法,提高數(shù)據(jù)對齊算法的準(zhǔn)確率。最后,本文基于所提的方法設(shè)計(jì)并實(shí)現(xiàn)了DeepWeb數(shù)據(jù)抽取原型系統(tǒng),驗(yàn)證方法的有效性和較高的準(zhǔn)確性。浙江大學(xué)碩士學(xué)篁壘莖墊至一—————_-—————_●●——————___———————__———————
7、——_————————-_——————___——————●_————————-————————————————一一關(guān)鍵詞:Deepw曲,數(shù)據(jù)抽取,樹匹配算法,值類型相似,DOM樹,外觀樣式信息AbstractWiththedevelopmentofcloudcomputing,InternetofThings,newmediaSUchassocialnetworkservices,LBSservices,theinformatizationofoursocietydevelopsveryfast.It’Stheageofbigdatasinc
8、eourinformationsystemsproducemoreandmoredataeveryday.Bitdatahavefourfeatures:Volum