資源描述:
《Web對(duì)象的信息抽取的關(guān)鍵技術(shù)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、創(chuàng)新性聲明秉承學(xué)校嚴(yán)謹(jǐn)?shù)膶W(xué)風(fēng)和優(yōu)良的科學(xué)道德,本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果;也不包含為獲得西安電子科技大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作過的同志對(duì)本研究所做的任何貢獻(xiàn)已在論文中做了明確的說明并表示了謝意。申請(qǐng)學(xué)位論文與資料若有不實(shí)之處,本人承擔(dān)一切相關(guān)責(zé)任。本人簽名:——日期關(guān)于論文使用授權(quán)的說明本人完全了解西安電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生在校攻讀學(xué)位
2、期間論文工作的知識(shí)產(chǎn)權(quán)單位屬西安電子科技大學(xué)。本人保證畢業(yè)離校后,發(fā)表論文或使用論文工作成果時(shí)署名單位仍然為西安電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件,允許查閱和借閱論文;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以允許采用影印、縮印或其它復(fù)制手段保存論文。(保密的論文在解密后遵守此規(guī)定)本人簽名:導(dǎo)師簽名:日期摘要隨著互聯(lián)網(wǎng)的高速發(fā)展,Web已經(jīng)成為世界上最大的信息來源。如何獲取有用的Web信息則是大家面臨的共同問題,Web信息抽取就是針對(duì)這一問題而提出的。目前大部分信息抽取僅停留在對(duì)純文本的信息抽取上,對(duì)網(wǎng)頁文本的特殊性考慮不足。另外,信
3、息抽取也很少涉及語義的理解。針對(duì)這些問題,本文以當(dāng)前招聘網(wǎng)站上海量的招聘信息為試驗(yàn)數(shù)據(jù),來進(jìn)行定題Web信息挖掘和信息抽取的研究。本文圍繞Web對(duì)象抽取中的關(guān)鍵技術(shù)展開研究。通過對(duì)Web頁面特點(diǎn)的分析,實(shí)現(xiàn)Web頁面的自動(dòng)分割,從而獲得主題文本。將主題信息抽象成Web對(duì)象,從而根據(jù)Web對(duì)象的特征來進(jìn)行Web對(duì)象的命名實(shí)體以及實(shí)體關(guān)系的識(shí)別,并且通過實(shí)驗(yàn)說明改進(jìn)的模型對(duì)于信息抽取有很好的效果,最后提出了系統(tǒng)的不足和未來的研究方向。具體的研究內(nèi)容包括:首先,針對(duì)網(wǎng)頁是二維的特點(diǎn),根據(jù)網(wǎng)頁的結(jié)構(gòu)和文本內(nèi)容特征,提出了基于網(wǎng)頁的多重特征表示方法,
4、實(shí)現(xiàn)了對(duì)于網(wǎng)頁語義層面的特征表示。為了體現(xiàn)網(wǎng)頁各個(gè)區(qū)域差異,采用二維模型對(duì)其建模,將傳統(tǒng)的HMM推廣到偽二維隱馬爾可夫模型,由此本文提出了基于偽二維隱馬爾可夫模型的網(wǎng)頁自動(dòng)分割技術(shù)。其次,根據(jù)Web抽取信息的特點(diǎn),引入Web對(duì)象的概念。將結(jié)構(gòu)特點(diǎn)和文本特點(diǎn)這兩種一維特征相結(jié)合,并且進(jìn)一步將這種一維特征抽象為語義紋理的二維特征,從而實(shí)現(xiàn)了從對(duì)象本身進(jìn)行抽取方法的改進(jìn),并為后文利用一維特征對(duì)Web對(duì)象實(shí)體的識(shí)別,以及二維特征對(duì)Web對(duì)象實(shí)體和屬性關(guān)系的識(shí)別做準(zhǔn)備。再次,針對(duì)Web對(duì)象的一維特征,從Web文本的結(jié)構(gòu)特點(diǎn)和內(nèi)容特點(diǎn)進(jìn)行了分析,采用統(tǒng)
5、計(jì)模型和實(shí)體特征相結(jié)合的方法,提出了一種DSTCRFs模型,利用該模型不同的層次來進(jìn)行Web對(duì)象的實(shí)體以及屬性的識(shí)別,尤其是針對(duì)一些復(fù)雜的嵌套實(shí)體的識(shí)別,從而將職位名、機(jī)構(gòu)名、地名、時(shí)間等命名實(shí)體的識(shí)別放在統(tǒng)一的框架下完成。最后,傳統(tǒng)模型多利用Web文本的結(jié)構(gòu)和內(nèi)容特點(diǎn)進(jìn)行實(shí)體的特征描述,并且需要依賴于VIPS樹進(jìn)行建模。本文在傳統(tǒng)模型的基礎(chǔ)上,將結(jié)構(gòu)和內(nèi)容特征抽象為語義紋理,用二維特征來進(jìn)行對(duì)象實(shí)體及其屬性的特征描述,提出一種針對(duì)Web對(duì)象的HT-CRFs信息抽取模型。該模型采用一種逆向過程,通過語義來發(fā)現(xiàn)結(jié)構(gòu),而不像傳統(tǒng)方法是通過結(jié)構(gòu)來
6、發(fā)現(xiàn)語義,解決模型對(duì)網(wǎng)頁結(jié)構(gòu)過度依賴的問題,使得模型對(duì)Web對(duì)象識(shí)別的準(zhǔn)確性更高。關(guān)鍵詞:文本挖掘信息抽取條件隨機(jī)場(chǎng)模型Web對(duì)象AbstractWiththerapiddevelopmentofInteract,WebhasbecometheworldtSlargestsourceofinformation.Therefore,theconlmonproblemthateveryonefacedishowtoget也eWebinformation.TheWebInformationExtraction(WeblE)isputforward
7、forthisproblem.Nowadays,themajorityofinformationextractionmethodsaletodealwithplaintext,noconsideringtheWebpage.Onmeotherhand,informationExtractionrarelyinvolvedin恤understandingofsemantics.Fortheseproblems,weusealargeamountofthecurrentrecruitmentinformationasthetestdatafor
8、theresearchonWebinformationextractionandtextmining.。Thispaperfocusesonthestudyofthekeytec