探索粗糙集理論在中文文本分類中的應(yīng)用

探索粗糙集理論在中文文本分類中的應(yīng)用

ID:34784356

大小:3.37 MB

頁(yè)數(shù):117頁(yè)

時(shí)間:2019-03-10

探索粗糙集理論在中文文本分類中的應(yīng)用_第1頁(yè)
探索粗糙集理論在中文文本分類中的應(yīng)用_第2頁(yè)
探索粗糙集理論在中文文本分類中的應(yīng)用_第3頁(yè)
探索粗糙集理論在中文文本分類中的應(yīng)用_第4頁(yè)
探索粗糙集理論在中文文本分類中的應(yīng)用_第5頁(yè)
資源描述:

《探索粗糙集理論在中文文本分類中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、謠南交通大學(xué)研究生學(xué)位論文粗糙集理論在中文文本分類中的應(yīng)用年姓級(jí)二oO二級(jí)名杜衛(wèi)鋒申請(qǐng)學(xué)位級(jí)別博士專業(yè)恕唯一鼬唏刪指導(dǎo)教師多薹多教授二oo六年四月西南交通大學(xué)博士研究生學(xué)位論文第1頁(yè)摘要隨著數(shù)據(jù)的爆炸式增長(zhǎng),信息處理已經(jīng)成為人們獲取信息和知識(shí)不可或缺的工具。文本分類是信息處理的重要研究方向,它是指在既定的分類體系下,根據(jù)文本的內(nèi)容自動(dòng)判別文本類別的過程。本文對(duì)文本分類中所涉及的關(guān)鍵技術(shù),包括向量空間模型、實(shí)值詞頻向量模糊化、基于粗糙集理論的知識(shí)獲取、知識(shí)庫(kù)中規(guī)則強(qiáng)度的計(jì)算、各規(guī)則分類結(jié)果不一致時(shí)的沖突消解等內(nèi)容進(jìn)行了研究和探討,并給出了該方法與其它分類方法的復(fù)雜度比較,最后應(yīng)用該方法實(shí)現(xiàn)了

2、一個(gè)文本分類系統(tǒng),獲得了分類準(zhǔn)確程度方面的實(shí)驗(yàn)結(jié)果。本文的研究?jī)?nèi)容主要包括以下兩個(gè)方面:一.基于粗糙集理論的知識(shí)約簡(jiǎn)研究1.Skowron區(qū)分矩陣的改進(jìn)。對(duì)Skowron區(qū)分矩陣中元素應(yīng)滿足的條件作了改進(jìn),使得對(duì)條件的判斷較原來(lái)更為簡(jiǎn)單,并且滿足該條件的元素較原來(lái)更少,有效降低了借助區(qū)分函數(shù)計(jì)算知識(shí)約簡(jiǎn)的復(fù)雜度:2.各種知識(shí)約簡(jiǎn)方法相互關(guān)系的研究。對(duì)于決策表,人們從不同的角度出發(fā),提出了正域約簡(jiǎn)、熵約簡(jiǎn)、分布約簡(jiǎn)、分配約筒、近似約簡(jiǎn)等約簡(jiǎn)理論與方法。本文證明了熵約簡(jiǎn)與分布約簡(jiǎn)等價(jià),而對(duì)于協(xié)調(diào)決策表,正域約簡(jiǎn)、熵約簡(jiǎn)、分布約筒、分配約簡(jiǎn)、近似約簡(jiǎn)相互等價(jià);3.知識(shí)約簡(jiǎn)的邏輯特征。決策表中的知

3、識(shí)體現(xiàn)為規(guī)則的形式,可以理解為非經(jīng)典邏輯系統(tǒng)中的公式,本文借助邏輯手段研究知識(shí)約簡(jiǎn)的邏輯特征,證明了在熵約簡(jiǎn)與分布約簡(jiǎn)之下,決策表約簡(jiǎn)前后所獲得的規(guī)則是等價(jià)的。二.粗糙集理論在文本分類中的應(yīng)用研究1.本文結(jié)合僅對(duì)一維空間進(jìn)行劃分的特點(diǎn),對(duì)FCM算法進(jìn)行了調(diào)整,使其能得到兩相模糊數(shù)弱劃分的結(jié)果,并將語(yǔ)言值引入規(guī)則,提高了知識(shí)的簡(jiǎn)潔性和可理解性,為人參與知識(shí)庫(kù)的分析與修正提供了方便;2.對(duì)應(yīng)用粗糙集理論獲取的規(guī)則提出了一種計(jì)算規(guī)則強(qiáng)度的方法,該方法綜合考慮規(guī)則對(duì)應(yīng)的實(shí)例數(shù)、規(guī)則與實(shí)例的匹配度以及規(guī)則前件的長(zhǎng)度,為分析規(guī)則庫(kù)中規(guī)則的重要性程度提供了一個(gè)指標(biāo),方便了不一致結(jié)果的沖突消解,使得分類結(jié)

4、果更加準(zhǔn)確有效:3.在以上研究工作基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了基于粗糙集理論的文本分類系統(tǒng),經(jīng)過查全率和查準(zhǔn)率比較,分析了本文提出的文本分類系統(tǒng)的特點(diǎn),并給出了沖突消解策略。美鍵詞數(shù)據(jù)挖掘;粗糙集;模糊聚類i文本分類;向量空間模型第1I頁(yè)西南交通大學(xué)博士研究生學(xué)位論文AbstractAstheexplosiveincrementofdata,informationprocessinghasbecometheindispensabletoolforpeopletoacquireinformationandknowledge.Textcategorizationistheimportantresear

5、chfieldofinformationprocessing.Itistheprocessofautomaticallydeterminingthecategorizationofsometextaccordingtothecontentoftext,whichisundertheestablishedcategorizationsystem.Thispaperhasmadesomeresearchanddiscussionaboutthecriticalpointoftextcategorization,includingVectorSpaceModel,thefuzzification

6、ofrealvaluedwordfrequencyvector,knowledgeacquisitionbasedonroughset,thecomputationofrulestrengthinknowledgebase,theconflictresolutionwhendisagreementamongtheresuhsoftherelatedrulesandSOon,moreover,thecomplexitycomparisonwithothermethodofcategorizationisgiven.Inaddition,werealizeatextcategorization

7、systemwiththemethod,whichacquirestheexperimentalresultofthecategorizationaccuracv.ThemaincontentiSlistedhere:PartOne:KnowledgereductionresearchbasedOnroughsettheory1.TheimprovementofSkowrondiscemibilitymatrix.The

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。