【碩士論文】基于垂直搜索引擎信息抽取技術的研究.pdf

【碩士論文】基于垂直搜索引擎信息抽取技術的研究.pdf

ID:32032547

大小:2.78 MB

頁數(shù):53頁

時間:2019-01-30

【碩士論文】基于垂直搜索引擎信息抽取技術的研究.pdf_第1頁
【碩士論文】基于垂直搜索引擎信息抽取技術的研究.pdf_第2頁
【碩士論文】基于垂直搜索引擎信息抽取技術的研究.pdf_第3頁
【碩士論文】基于垂直搜索引擎信息抽取技術的研究.pdf_第4頁
【碩士論文】基于垂直搜索引擎信息抽取技術的研究.pdf_第5頁
資源描述:

《【碩士論文】基于垂直搜索引擎信息抽取技術的研究.pdf》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫

1、哈爾濱工程大學碩士學位論文a-i'1i[[[Iii

2、●萱置萱i皇l摘要在信息化時代,獲得信息的途徑越來越多?;ヂ?lián)網(wǎng)作為信息的載體,在傳播效率和信息容量方面都有無可替代的地位。但是隨著信息量的增加,用戶在互聯(lián)網(wǎng)上獲得真正所需信息的變得越來越困難。搜索引擎的出現(xiàn)改善了目前的狀況,但是用戶想要獲得專業(yè)化的信息仍然不夠方便。垂直搜索引擎的出現(xiàn)解決了這一問題。在垂直搜索引擎中,結構化信息抽取技術是垂直搜索引擎的關鍵技術之一?;诎b器的信息抽取是信息抽取技術中主要的抽取技術。在包裝器生成過程中,需要對網(wǎng)頁分析并生成針對該網(wǎng)頁的抽取規(guī)則。在分析網(wǎng)頁時多余的“非主題"信息參與生成抽取規(guī)則不僅會影響包裝器

3、抽取的效率,而且影響結果的準確性。本文提出了對原有包裝器生成模式的改進。在對MDR算法修改的基礎上,直接提取出主題信息,只將主題信息參與構成抽取規(guī)則。需要提取主題信息的網(wǎng)頁要滿足數(shù)據(jù)密集這個前提,因為在提取主題信息過程中,要把主題信息區(qū)域中各條信息的樹結構析取出來。通過對整個網(wǎng)頁DOM樹上同層次的各個節(jié)點的比較,將具有相似節(jié)點特征的聯(lián)合節(jié)點進行劃分,分成若干相似的數(shù)據(jù)區(qū)域,構成抽取各條信息的簡單樹結構。然后按照包裝器抽取規(guī)則的提取方法對該樹結構提取結構化信息抽取規(guī)則。該方法有效地去除了“非主題”信息,只對每條數(shù)據(jù)信息生成抽取規(guī)則。實驗結果表明該方法在一定程度上提高了包裝器生成的效率和抽取的

4、準確率的召回率。關鍵詞:垂直搜索引擎;信息抽取:主題信息;聯(lián)合節(jié)點:數(shù)據(jù)區(qū)域哈爾濱工程大學碩士學位論文AbstractInmodemtimes,therearemanywaystoobtaininformation.Asallinformationmedia,intemetismuchmoreimportantintheefficiencyoftransmissionandvolumeofinformation.Withtheincrementofin_formation,itiSdifficultforuserstogettheinformationtheyreallyneed.Alth

5、oughtheinventionofsearchengineimprovesthecurrentcondition,itisstillnotconvenientforthemtOobtainprofessionalinformation.Andverticalsearchenginesolvesit.Inverticalsearchengine,structureddataextractionisoneofthekeytechnologies.Anddataextractionbasedonwrapperisamoreimportanttechnologyofthedataextracti

6、on.Beforegenerationofthewrapper,itisneededtoanalyzethewebpageandgeneratetheruleofdataextraction.Them-themedatainvolvedinextractionrulewhileanalyzingbadlyaffectstheefficiencyofextractionandaccuracyofresult.Wepromoteimprovementonthewrapper,whichextractsthethemedirectlyandanalyzesthewebpagebasedonimp

7、rovedMDRalgorithm.Thewebpageextractedthemeshouldbedataintensive.becauseintheprocedureofextraction,wewouldextractthetreeofeachiteminthethemeregion.ThroughthecomparisonofeachnodeonthesamelayerintheDOMtreeofthewholewebpage.somegeneralizednodeswhicharesimilartoeachotheraredividedintosomesimilardatareg

8、iontoconstitutethesimpletreeprocessedlater.Afterthatwecartgeneratetheruleofstructureddataextractiononthedataregionintheusualway.Thetin.themedatawhichisuselessandcausesinefficiencyonthewebpageisthoroughlycleared.T

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。