資源描述:
《【碩士論文】基于垂直搜索引擎信息抽取技術的研究.pdf》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、哈爾濱工程大學碩士學位論文a-i'1i[[[Iii
2、●萱置萱i皇l摘要在信息化時代,獲得信息的途徑越來越多?;ヂ?lián)網(wǎng)作為信息的載體,在傳播效率和信息容量方面都有無可替代的地位。但是隨著信息量的增加,用戶在互聯(lián)網(wǎng)上獲得真正所需信息的變得越來越困難。搜索引擎的出現(xiàn)改善了目前的狀況,但是用戶想要獲得專業(yè)化的信息仍然不夠方便。垂直搜索引擎的出現(xiàn)解決了這一問題。在垂直搜索引擎中,結構化信息抽取技術是垂直搜索引擎的關鍵技術之一?;诎b器的信息抽取是信息抽取技術中主要的抽取技術。在包裝器生成過程中,需要對網(wǎng)頁分析并生成針對該網(wǎng)頁的抽取規(guī)則。在分析網(wǎng)頁時多余的“非主題"信息參與生成抽取規(guī)則不僅會影響包裝器
3、抽取的效率,而且影響結果的準確性。本文提出了對原有包裝器生成模式的改進。在對MDR算法修改的基礎上,直接提取出主題信息,只將主題信息參與構成抽取規(guī)則。需要提取主題信息的網(wǎng)頁要滿足數(shù)據(jù)密集這個前提,因為在提取主題信息過程中,要把主題信息區(qū)域中各條信息的樹結構析取出來。通過對整個網(wǎng)頁DOM樹上同層次的各個節(jié)點的比較,將具有相似節(jié)點特征的聯(lián)合節(jié)點進行劃分,分成若干相似的數(shù)據(jù)區(qū)域,構成抽取各條信息的簡單樹結構。然后按照包裝器抽取規(guī)則的提取方法對該樹結構提取結構化信息抽取規(guī)則。該方法有效地去除了“非主題”信息,只對每條數(shù)據(jù)信息生成抽取規(guī)則。實驗結果表明該方法在一定程度上提高了包裝器生成的效率和抽取的
4、準確率的召回率。關鍵詞:垂直搜索引擎;信息抽取:主題信息;聯(lián)合節(jié)點:數(shù)據(jù)區(qū)域哈爾濱工程大學碩士學位論文AbstractInmodemtimes,therearemanywaystoobtaininformation.Asallinformationmedia,intemetismuchmoreimportantintheefficiencyoftransmissionandvolumeofinformation.Withtheincrementofin_formation,itiSdifficultforuserstogettheinformationtheyreallyneed.Alth
5、oughtheinventionofsearchengineimprovesthecurrentcondition,itisstillnotconvenientforthemtOobtainprofessionalinformation.Andverticalsearchenginesolvesit.Inverticalsearchengine,structureddataextractionisoneofthekeytechnologies.Anddataextractionbasedonwrapperisamoreimportanttechnologyofthedataextracti
6、on.Beforegenerationofthewrapper,itisneededtoanalyzethewebpageandgeneratetheruleofdataextraction.Them-themedatainvolvedinextractionrulewhileanalyzingbadlyaffectstheefficiencyofextractionandaccuracyofresult.Wepromoteimprovementonthewrapper,whichextractsthethemedirectlyandanalyzesthewebpagebasedonimp
7、rovedMDRalgorithm.Thewebpageextractedthemeshouldbedataintensive.becauseintheprocedureofextraction,wewouldextractthetreeofeachiteminthethemeregion.ThroughthecomparisonofeachnodeonthesamelayerintheDOMtreeofthewholewebpage.somegeneralizednodeswhicharesimilartoeachotheraredividedintosomesimilardatareg
8、iontoconstitutethesimpletreeprocessedlater.Afterthatwecartgeneratetheruleofstructureddataextractiononthedataregionintheusualway.Thetin.themedatawhichisuselessandcausesinefficiencyonthewebpageisthoroughlycleared.T