資源描述:
《探索粗糙集理論在中文文本分類中的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、謠南交通大學(xué)研究生學(xué)位論文粗糙集理論在中文文本分類中的應(yīng)用年姓級二oO二級名杜衛(wèi)鋒申請學(xué)位級別博士專業(yè)恕唯一鼬唏刪指導(dǎo)教師多薹多教授二oo六年四月西南交通大學(xué)博士研究生學(xué)位論文第1頁摘要隨著數(shù)據(jù)的爆炸式增長,信息處理已經(jīng)成為人們獲取信息和知識不可或缺的工具。文本分類是信息處理的重要研究方向,它是指在既定的分類體系下,根據(jù)文本的內(nèi)容自動判別文本類別的過程。本文對文本分類中所涉及的關(guān)鍵技術(shù),包括向量空間模型、實值詞頻向量模糊化、基于粗糙集理論的知識獲取、知識庫中規(guī)則強度的計算、各規(guī)則分類結(jié)果不一致時的沖突消解等內(nèi)容進行了研究和探討,并給出了該方法與其它分類方法的復(fù)雜度比較,最后應(yīng)用該方法實現(xiàn)了
2、一個文本分類系統(tǒng),獲得了分類準(zhǔn)確程度方面的實驗結(jié)果。本文的研究內(nèi)容主要包括以下兩個方面:一.基于粗糙集理論的知識約簡研究1.Skowron區(qū)分矩陣的改進。對Skowron區(qū)分矩陣中元素應(yīng)滿足的條件作了改進,使得對條件的判斷較原來更為簡單,并且滿足該條件的元素較原來更少,有效降低了借助區(qū)分函數(shù)計算知識約簡的復(fù)雜度:2.各種知識約簡方法相互關(guān)系的研究。對于決策表,人們從不同的角度出發(fā),提出了正域約簡、熵約簡、分布約簡、分配約筒、近似約簡等約簡理論與方法。本文證明了熵約簡與分布約簡等價,而對于協(xié)調(diào)決策表,正域約簡、熵約簡、分布約筒、分配約簡、近似約簡相互等價;3.知識約簡的邏輯特征。決策表中的知
3、識體現(xiàn)為規(guī)則的形式,可以理解為非經(jīng)典邏輯系統(tǒng)中的公式,本文借助邏輯手段研究知識約簡的邏輯特征,證明了在熵約簡與分布約簡之下,決策表約簡前后所獲得的規(guī)則是等價的。二.粗糙集理論在文本分類中的應(yīng)用研究1.本文結(jié)合僅對一維空間進行劃分的特點,對FCM算法進行了調(diào)整,使其能得到兩相模糊數(shù)弱劃分的結(jié)果,并將語言值引入規(guī)則,提高了知識的簡潔性和可理解性,為人參與知識庫的分析與修正提供了方便;2.對應(yīng)用粗糙集理論獲取的規(guī)則提出了一種計算規(guī)則強度的方法,該方法綜合考慮規(guī)則對應(yīng)的實例數(shù)、規(guī)則與實例的匹配度以及規(guī)則前件的長度,為分析規(guī)則庫中規(guī)則的重要性程度提供了一個指標(biāo),方便了不一致結(jié)果的沖突消解,使得分類結(jié)
4、果更加準(zhǔn)確有效:3.在以上研究工作基礎(chǔ)上,設(shè)計并實現(xiàn)了基于粗糙集理論的文本分類系統(tǒng),經(jīng)過查全率和查準(zhǔn)率比較,分析了本文提出的文本分類系統(tǒng)的特點,并給出了沖突消解策略。美鍵詞數(shù)據(jù)挖掘;粗糙集;模糊聚類i文本分類;向量空間模型第1I頁西南交通大學(xué)博士研究生學(xué)位論文AbstractAstheexplosiveincrementofdata,informationprocessinghasbecometheindispensabletoolforpeopletoacquireinformationandknowledge.Textcategorizationistheimportantresear
5、chfieldofinformationprocessing.Itistheprocessofautomaticallydeterminingthecategorizationofsometextaccordingtothecontentoftext,whichisundertheestablishedcategorizationsystem.Thispaperhasmadesomeresearchanddiscussionaboutthecriticalpointoftextcategorization,includingVectorSpaceModel,thefuzzification
6、ofrealvaluedwordfrequencyvector,knowledgeacquisitionbasedonroughset,thecomputationofrulestrengthinknowledgebase,theconflictresolutionwhendisagreementamongtheresuhsoftherelatedrulesandSOon,moreover,thecomplexitycomparisonwithothermethodofcategorizationisgiven.Inaddition,werealizeatextcategorization
7、systemwiththemethod,whichacquirestheexperimentalresultofthecategorizationaccuracv.ThemaincontentiSlistedhere:PartOne:KnowledgereductionresearchbasedOnroughsettheory1.TheimprovementofSkowrondiscemibilitymatrix.The