資源描述:
《探索粗糙集理論在中文文本分類中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、謠南交通大學(xué)研究生學(xué)位論文粗糙集理論在中文文本分類中的應(yīng)用年姓級(jí)二oO二級(jí)名杜衛(wèi)鋒申請(qǐng)學(xué)位級(jí)別博士專業(yè)恕唯一鼬唏刪指導(dǎo)教師多薹多教授二oo六年四月西南交通大學(xué)博士研究生學(xué)位論文第1頁(yè)摘要隨著數(shù)據(jù)的爆炸式增長(zhǎng),信息處理已經(jīng)成為人們獲取信息和知識(shí)不可或缺的工具。文本分類是信息處理的重要研究方向,它是指在既定的分類體系下,根據(jù)文本的內(nèi)容自動(dòng)判別文本類別的過程。本文對(duì)文本分類中所涉及的關(guān)鍵技術(shù),包括向量空間模型、實(shí)值詞頻向量模糊化、基于粗糙集理論的知識(shí)獲取、知識(shí)庫(kù)中規(guī)則強(qiáng)度的計(jì)算、各規(guī)則分類結(jié)果不一致時(shí)的沖突消解等內(nèi)容進(jìn)行了研究和探討,并給出了該方法與其它分類方法的復(fù)雜度比較,最后應(yīng)用該方法實(shí)現(xiàn)了
2、一個(gè)文本分類系統(tǒng),獲得了分類準(zhǔn)確程度方面的實(shí)驗(yàn)結(jié)果。本文的研究?jī)?nèi)容主要包括以下兩個(gè)方面:一.基于粗糙集理論的知識(shí)約簡(jiǎn)研究1.Skowron區(qū)分矩陣的改進(jìn)。對(duì)Skowron區(qū)分矩陣中元素應(yīng)滿足的條件作了改進(jìn),使得對(duì)條件的判斷較原來(lái)更為簡(jiǎn)單,并且滿足該條件的元素較原來(lái)更少,有效降低了借助區(qū)分函數(shù)計(jì)算知識(shí)約簡(jiǎn)的復(fù)雜度:2.各種知識(shí)約簡(jiǎn)方法相互關(guān)系的研究。對(duì)于決策表,人們從不同的角度出發(fā),提出了正域約簡(jiǎn)、熵約簡(jiǎn)、分布約簡(jiǎn)、分配約筒、近似約簡(jiǎn)等約簡(jiǎn)理論與方法。本文證明了熵約簡(jiǎn)與分布約簡(jiǎn)等價(jià),而對(duì)于協(xié)調(diào)決策表,正域約簡(jiǎn)、熵約簡(jiǎn)、分布約筒、分配約簡(jiǎn)、近似約簡(jiǎn)相互等價(jià);3.知識(shí)約簡(jiǎn)的邏輯特征。決策表中的知
3、識(shí)體現(xiàn)為規(guī)則的形式,可以理解為非經(jīng)典邏輯系統(tǒng)中的公式,本文借助邏輯手段研究知識(shí)約簡(jiǎn)的邏輯特征,證明了在熵約簡(jiǎn)與分布約簡(jiǎn)之下,決策表約簡(jiǎn)前后所獲得的規(guī)則是等價(jià)的。二.粗糙集理論在文本分類中的應(yīng)用研究1.本文結(jié)合僅對(duì)一維空間進(jìn)行劃分的特點(diǎn),對(duì)FCM算法進(jìn)行了調(diào)整,使其能得到兩相模糊數(shù)弱劃分的結(jié)果,并將語(yǔ)言值引入規(guī)則,提高了知識(shí)的簡(jiǎn)潔性和可理解性,為人參與知識(shí)庫(kù)的分析與修正提供了方便;2.對(duì)應(yīng)用粗糙集理論獲取的規(guī)則提出了一種計(jì)算規(guī)則強(qiáng)度的方法,該方法綜合考慮規(guī)則對(duì)應(yīng)的實(shí)例數(shù)、規(guī)則與實(shí)例的匹配度以及規(guī)則前件的長(zhǎng)度,為分析規(guī)則庫(kù)中規(guī)則的重要性程度提供了一個(gè)指標(biāo),方便了不一致結(jié)果的沖突消解,使得分類結(jié)
4、果更加準(zhǔn)確有效:3.在以上研究工作基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了基于粗糙集理論的文本分類系統(tǒng),經(jīng)過查全率和查準(zhǔn)率比較,分析了本文提出的文本分類系統(tǒng)的特點(diǎn),并給出了沖突消解策略。美鍵詞數(shù)據(jù)挖掘;粗糙集;模糊聚類i文本分類;向量空間模型第1I頁(yè)西南交通大學(xué)博士研究生學(xué)位論文AbstractAstheexplosiveincrementofdata,informationprocessinghasbecometheindispensabletoolforpeopletoacquireinformationandknowledge.Textcategorizationistheimportantresear
5、chfieldofinformationprocessing.Itistheprocessofautomaticallydeterminingthecategorizationofsometextaccordingtothecontentoftext,whichisundertheestablishedcategorizationsystem.Thispaperhasmadesomeresearchanddiscussionaboutthecriticalpointoftextcategorization,includingVectorSpaceModel,thefuzzification
6、ofrealvaluedwordfrequencyvector,knowledgeacquisitionbasedonroughset,thecomputationofrulestrengthinknowledgebase,theconflictresolutionwhendisagreementamongtheresuhsoftherelatedrulesandSOon,moreover,thecomplexitycomparisonwithothermethodofcategorizationisgiven.Inaddition,werealizeatextcategorization
7、systemwiththemethod,whichacquirestheexperimentalresultofthecategorizationaccuracv.ThemaincontentiSlistedhere:PartOne:KnowledgereductionresearchbasedOnroughsettheory1.TheimprovementofSkowrondiscemibilitymatrix.The