考慮關(guān)聯(lián)分布詞語聚類方法的研究

考慮關(guān)聯(lián)分布詞語聚類方法的研究

ID:23621221

大?。?.99 MB

頁數(shù):53頁

時(shí)間:2018-11-09

考慮關(guān)聯(lián)分布詞語聚類方法的研究_第1頁
考慮關(guān)聯(lián)分布詞語聚類方法的研究_第2頁
考慮關(guān)聯(lián)分布詞語聚類方法的研究_第3頁
考慮關(guān)聯(lián)分布詞語聚類方法的研究_第4頁
考慮關(guān)聯(lián)分布詞語聚類方法的研究_第5頁
資源描述:

《考慮關(guān)聯(lián)分布詞語聚類方法的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得重迭監(jiān)直太堂或其他教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。學(xué)位論文作者躲卯彪社蝌期?歹年‘月”學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解重龐蜜&電太堂有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。

2、本人授權(quán)重麼蜜E魚太堂可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后適用本授權(quán)書)學(xué)位論文作者簽名:左臼氍杠導(dǎo)師簽名:復(fù)耖簽字日期:沙’¨月f日簽字日期:功91年6月≥日重慶郵電大學(xué)碩士論文摘要詞聚類就是對(duì)一些紛繁的個(gè)別詞應(yīng)用某種方法進(jìn)行分組形成語義相近或相關(guān)的詞類(或詞聚簇)。它在智能檢索、文本分類、詞義排歧、機(jī)器翻譯等領(lǐng)域都有廣泛的應(yīng)用,是語言學(xué)和自然語言處理中十分重要的研究課題之一。在詞聚類技術(shù)中,采用什么樣的詞語相似度計(jì)算方

3、法以及如何對(duì)詞語聚類,往往決定了詞聚類效果的好壞。傳統(tǒng)基于互信息的詞聚類方法由于簡(jiǎn)單、易于實(shí)現(xiàn)等特點(diǎn),被應(yīng)用在了基于上下文的機(jī)器自動(dòng)聚類中。該方法存在兩個(gè)問題:(1)未考慮詞對(duì)的不同分布所造成的詞語關(guān)聯(lián)強(qiáng)度差異;(2)虛假關(guān)聯(lián)問題,即有些實(shí)際較強(qiáng)的關(guān)聯(lián)關(guān)系計(jì)算結(jié)果較弱,反之某些實(shí)際較弱的關(guān)聯(lián)關(guān)系計(jì)算結(jié)果較強(qiáng),這與實(shí)際情況不符。本文針對(duì)傳統(tǒng)基于互信息的詞聚類方法存在的以上兩個(gè)問題,圍繞如何計(jì)算詞語相似度及選用合適的詞聚類算法開展了研究工作:首先,本文提出了一種基于關(guān)聯(lián)分布的詞語相似度計(jì)算方法。該方法用詞語關(guān)聯(lián)分布規(guī)范化

4、因子對(duì)傳統(tǒng)互信息度量待聚類詞和基詞關(guān)聯(lián)度的方法進(jìn)行了修正,即用關(guān)聯(lián)的累積分布函數(shù)更準(zhǔn)確的度量其關(guān)聯(lián)度;然后由所得關(guān)聯(lián)度構(gòu)造待聚類詞的屬性向量;最后由屬性向量利用央角余弦法計(jì)算出待聚類詞語相似度。實(shí)驗(yàn)結(jié)果表明,新方法比傳統(tǒng)方法有更好的詞語相似度計(jì)算效果。其次,實(shí)現(xiàn)了基于關(guān)聯(lián)分稚相似度的詞語聚類算法。該算法以基于關(guān)聯(lián)分布的詞語相似度計(jì)算方法所得待聚類詞語相似度為基礎(chǔ),利用仿射傳播聚類算法,將詞對(duì)棚似皮轉(zhuǎn)換為矩陣形式作為輸入,在算法了I:始時(shí)將所有的待聚類詞語都視為潛在的聚類中心,算法通過迭代循環(huán)不斷進(jìn)行消息傳遞,以產(chǎn)生一

5、些高質(zhì)量的詞聚類代表,然后將各詞分配給最近的詞聚類代表所屬的類,則找到的聚類即是詞聚類結(jié)果。實(shí)驗(yàn)結(jié)果表明,該算法能夠較準(zhǔn)確地進(jìn)行中文詞語聚類。關(guān)鍵詞:詞聚類,相似度,關(guān)聯(lián)分布,關(guān)聯(lián)度,仿射傳播聚類重慶郵電人學(xué)碩士論文AbstractWrordclusteringistheprocessinwhichunlabeled、vordsareclassifledintosimilarorrelatedsemanticgroups(orcluster)bycenainmethod.Wbrdclusteringiswidelyu

6、sedinintelligentretrieVal,textclassi6cation,wordsensedisambiguation,machinetranslation,andalsoanimponantresearchtopicin王inguisticsandnaturallanguageprocessmg.Thesimilarity-basedwordclusteringtechnologyconsistsofwordsimilaritycomputingmethodandclusteringalgorit量

7、lIll.TheconVentionalmutualinfomlation(MI)basedmethodwidelyusedincontext·based、Vo坩clusteringbecauseit’ssimpleandeasyt0reaIize,whiIetherearetwoobViousproblemsinMI-basedmemod:(1)Stren加di疏rencebet、Ⅳeendi仃erentliIll(snotbeenconsidered;(2)Tllefalselinkproblem,i.e.,so

8、mestronglinksarecoIlsideredmistakenlyasweakliIll(sbecauSeoftheirlowco-occun.encefrequencies,andsomeweal(1inksareconsideredmistakenly舔stronglinksbecauseoftheirhighco-occurren

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。