資源描述:
《基于信息抽取比較購(gòu)物垂直搜索地研究與設(shè)計(jì)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、I.....一{lllllIlll?舢?111110嗍llllflⅢY1824696,獨(dú)創(chuàng)性聲明●本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果,也不包含為獲得重迭整魚太堂或其他教育機(jī)構(gòu)的學(xué)位或證書而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示謝意。警論文作者簽名砸緝簽字嗍唧等朔?瑁學(xué)位論文版權(quán)使用授權(quán)書,‘~本學(xué)位論文作者完全了解重慶郵電太堂有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)
2、部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱’和借閱。本人授權(quán)重廢郵電太堂可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。7.(保密的學(xué)位論文在解密后適用本授權(quán)書)學(xué)位論文柘者簽依簽字呼叼年r月2,蟈導(dǎo)師簽名:修壽傻鉚’簽字日期:。2唧年j-月少陽(yáng)lj}摘要隨著№met的飛速發(fā)展,W
3、eb的信息量越來(lái)越大,通用搜索引擎將面臨信息采集、檢索等方面更大的挑戰(zhàn)。隨著電子商務(wù)的蓬勃發(fā)展,網(wǎng)上商品的交易越來(lái)越頻繁,更多的消費(fèi)者通過(guò)搜索引擎來(lái)尋找和購(gòu)買在線產(chǎn)品,但是用戶常常難以快速、準(zhǔn)確地從海量信息
4、中找到自己所需的且可比較的信息。為解決這些問(wèn)題,比較購(gòu)物垂直搜索應(yīng)運(yùn)而生。本文旨在通過(guò)WEB信息抽取、中文分詞、信息融合等相關(guān)垂直搜索技術(shù)對(duì)網(wǎng)頁(yè)信息進(jìn)行處理,使計(jì)算機(jī)能夠自動(dòng)完成商品信息抽取和融合,最后呈現(xiàn)給用戶一個(gè)完整的商品信息視圖,提供一個(gè)初步的比較購(gòu)物垂直搜索系統(tǒng)模型。它有助于提高信息抽取自動(dòng)化程度,監(jiān)控競(jìng)爭(zhēng)對(duì)手的市場(chǎng)策略,以及衍生新的商業(yè)模式。本文針對(duì)網(wǎng)頁(yè)噪音和網(wǎng)頁(yè)非結(jié)構(gòu)化信息抽取模板生成復(fù)雜度高的問(wèn)題,提出一種基于模板的快速網(wǎng)頁(yè)文本自動(dòng)抽取算法。該算法對(duì)網(wǎng)頁(yè)噪音預(yù)處理,將其DOM樹結(jié)構(gòu)進(jìn)行標(biāo)簽HASH映射,通過(guò)自動(dòng)訓(xùn)練的閾值快速判定網(wǎng)頁(yè)的主
5、要部分,根據(jù)數(shù)據(jù)塊中的嵌套結(jié)構(gòu)獲取網(wǎng)頁(yè)文本抽取模板。然后使用網(wǎng)頁(yè)文本主題分析和正則模板匹配等技術(shù),實(shí)現(xiàn)一套針對(duì)商品信息的在線抽取方法。為了增加商品垂直搜索的準(zhǔn)確性,維護(hù)日益更新的商品名詞,本文提出了基于主題的自適應(yīng)的分詞方法,使用候選詞典和專業(yè)詞庫(kù)來(lái)指導(dǎo)分詞和歧義消除,能有效地提高專業(yè)領(lǐng)域中分詞的準(zhǔn)確率。本文進(jìn)行了系統(tǒng)的總體設(shè)計(jì)、數(shù)據(jù)庫(kù)表結(jié)構(gòu)設(shè)計(jì);對(duì)關(guān)鍵模塊的設(shè)計(jì)引入(Plug.i11)機(jī)制;并結(jié)合一些開源框架對(duì)部分系統(tǒng)模塊和底層時(shí)序調(diào)度進(jìn)行實(shí)現(xiàn)。文中介紹了主要模塊的實(shí)現(xiàn)細(xì)節(jié),并根據(jù)抽取的商品信息屬性,提出相應(yīng)的數(shù)據(jù)融合策略。最后以圖書商品為例進(jìn)行了
6、系統(tǒng)運(yùn)行實(shí)驗(yàn)。實(shí)驗(yàn)運(yùn)行結(jié)果表明:本文相關(guān)算法和設(shè)計(jì)是可行的,系統(tǒng)能夠完成初步的設(shè)計(jì)目的,為進(jìn)一步的擴(kuò)展打下基礎(chǔ)。關(guān)鍵詞:信息抽取,非結(jié)構(gòu)化信息,自適應(yīng),數(shù)據(jù)融合,比較購(gòu)物垂直搜索Abs仃actAbstractWim恤rapiddeVelopmemofmeIntemet,也e鋤。眥tinfb皿ation0fweb謝1lbel盯ger’generalsearchengine謝llf.a(chǎn)cegreatcrc11allenges,such勰infomationcollectio瑪retrieVe.Atmes鋤etiIne一嬲nler蜀lpiddeVelopm
7、entofe-commerCe,o芏1line缸adingofgoodsarcmoreandmore廳equent,m砒1yconsumerstllroughsearcheI培inest0findandbuyproductSollline,butisusuallydimcuhforuserst0quicl【ly鋤daccwatelyf如macomplexmassofir面姍ation丘ndcomparableinf.0mationw量lichmeyneed.Tosolvenleseissues,comparison-ShoppingVenicalse
8、arch鋤eintobeing.TIlisanicleisf.0rmepl=Irposeofc齜ryingonprocessing也ewebi11】白rmation廿lrou曲W曲iIl:f加mationex臼徼tioIl,Cllinesewordsegmematio芏1,Datamsion鋤d硎herrelatedvenicalsearchtechnology,enablestllecomputert0beabletocomplete廿lecommodi夠informationeXtmction齜ld咖如sionautomatically,fmal
9、lypresemsfort11ellserac!ompletecommodi夠iIlfomlationVie