資源描述:
《數(shù)據(jù)挖掘及其在中醫(yī)領(lǐng)域的應用研究.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、作者:丁維蔣永光宋姚屏吳孟旭李昆【摘要】 介紹了數(shù)據(jù)挖掘的意義和任務,綜述了近幾年來數(shù)據(jù)挖掘在中醫(yī)各領(lǐng)域中的應用,分析了目前存在的問題,并探討了今后的發(fā)展趨勢?!娟P(guān)鍵詞】數(shù)據(jù)挖掘 中醫(yī) 隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,在中醫(yī)藥的現(xiàn)代化過程中建立了很多的數(shù)據(jù)庫。堆積在數(shù)據(jù)庫中的信息呈超指數(shù)爆炸式增長。例如中醫(yī)藥科技信息數(shù)據(jù)庫就有50個子數(shù)據(jù)庫、110個表單及數(shù)百個自動生成的中間表、800余個著錄項目,涵蓋所有中醫(yī)藥有關(guān)醫(yī)、藥及學術(shù)的內(nèi)容。而數(shù)據(jù)挖掘技術(shù)的發(fā)展使我們有可能從這些海量數(shù)據(jù)中發(fā)現(xiàn)新的知識,發(fā)現(xiàn)數(shù)據(jù)背后隱藏的關(guān)系和
2、規(guī)則,還可以對未知的情況進行預測。多學科交叉目前正成為增強科技創(chuàng)新的重要途徑,數(shù)據(jù)挖掘正是從統(tǒng)計學、數(shù)據(jù)庫、機器學習等多門學科中發(fā)展起來的?! ?數(shù)據(jù)挖掘介紹 1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘(datamining)也稱為數(shù)據(jù)庫知識發(fā)現(xiàn),為解決上述矛盾提供了強有力的工具[1]。數(shù)據(jù)挖掘這一術(shù)語出現(xiàn)于1989年,其定義幾經(jīng)變動,本研究中引用frayyadum等提出的對數(shù)據(jù)挖掘的定義[2]。數(shù)據(jù)挖掘是從數(shù)據(jù)庫中識別出有效的、新穎的、潛在有用的并且最終可理解的模式的非平凡過程。其中:①有效性要求挖掘前要對被挖掘的數(shù)據(jù)進行仔細檢查,具備該
3、特性,才能保證挖掘出來信息的可靠性。②新穎性要求發(fā)現(xiàn)的模式應該是從前未知的,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。③潛在有用性是指發(fā)現(xiàn)的知識將來有實際效用,即這些信息或知識對于所討論的業(yè)務或研究領(lǐng)域是有效的、是有實用價值和可實現(xiàn)的,常識性的結(jié)論或已被人們掌握的事實或無法實現(xiàn)的推測都是沒有意義的。④最終可理解性要求發(fā)現(xiàn)的模式能被用戶理解,目前它主要是體現(xiàn)在簡潔性上。發(fā)現(xiàn)的知識要可接受、可理解、可運用,最好能用自然語言表達所發(fā)現(xiàn)的結(jié)果。實際上,所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件,面向特定
4、領(lǐng)域的。⑤非平凡是一個數(shù)學概念,即數(shù)據(jù)挖掘既不是把數(shù)據(jù)全部抽取,也不是一點兒也不抽取,而是抽取出隱含的、未知的、可能的有用的信息。要有一定程度的智能性、自動性(僅僅給出所有數(shù)據(jù)的總和不能算作是一個發(fā)現(xiàn)過程)。數(shù)據(jù)挖掘的結(jié)果通常表示為概念(concepts)、規(guī)則(rules)、規(guī)律(regularities)、模式(pattern)、約束(constraint)、可視化(visualization)等形式。這些知識可以直接提供給決策者,用于輔助決策過程;或者提供給領(lǐng)域?qū)<?,修正專家的已有的知識體系;也可以作為新的知識轉(zhuǎn)存到應用系
5、統(tǒng)中,作為實際事務處理中決策的依據(jù)[3]?! ?數(shù)據(jù)挖掘的任務數(shù)據(jù)挖掘的任務主要是預測和描述。預測是指用一些變量或數(shù)據(jù)庫的若干已知字段預測其他感興趣的變量或字段的未知的或未來的值。描述是指找到描述數(shù)據(jù)的可理解模式。預測方法有統(tǒng)計分析、關(guān)聯(lián)規(guī)則和決策樹預測、回歸樹預測等。其中關(guān)聯(lián)規(guī)則反映了一個事務與其他事務之間存在關(guān)聯(lián),那么就能根據(jù)其他已知事務預測到另一個事務。描述性方法主要有數(shù)據(jù)分類、回歸分析、聚類、變化和偏差分析、模式發(fā)現(xiàn)等?! ?數(shù)據(jù)挖掘在中醫(yī)藥中的應用中醫(yī)藥的發(fā)展也需要多門學科的交叉應用。數(shù)據(jù)挖掘最初在生物醫(yī)學中的應用是在
6、對基因組測序數(shù)據(jù)的分析,因為人類基因組計劃研究中產(chǎn)生了數(shù)十億的核苷酸和上百萬的氨基酸,傳統(tǒng)的統(tǒng)計方法無能為力。中醫(yī)學具有系統(tǒng)性、整體性、復雜性、不確定性等特點,不適宜運用傳統(tǒng)的還原論的方法研究,而適宜與數(shù)據(jù)挖掘類似的從整體觀上入手的研究方法。數(shù)據(jù)挖掘可以從海量數(shù)據(jù)中挖掘出潛在的規(guī)律,數(shù)據(jù)挖掘的結(jié)果一部分可能與傳統(tǒng)的診療規(guī)律相符,不符合的部分可能是潛在的新知,也可能是沒有意義的,這都需要在相應目標領(lǐng)域?qū)<业闹笇逻M行解釋和評價。將數(shù)據(jù)挖掘(dm)和知識發(fā)現(xiàn)(dmkd)應用于中醫(yī)藥領(lǐng)域的研究,是中醫(yī)藥現(xiàn)代化研究的重要組成部分[1],
7、必將促進中醫(yī)藥的發(fā)展。而數(shù)據(jù)挖掘在中藥藥譜研究和新藥開發(fā)中取得了一定進展,本研究主要對其在中醫(yī)以下領(lǐng)域的研究作一介紹。 3.1證實質(zhì)的研究中醫(yī)的“證”又稱“證候”,是疾病在某一階段病變的本質(zhì)反映,是由一組能反映疾病本質(zhì)的癥狀組成的,能揭示病因、病位、病性、病勢,為論治提供依據(jù)。證候是中醫(yī)診斷的核心概念和理論精髓,具有整體性、抽象性、時間性和相對穩(wěn)定性的特點。現(xiàn)在對證實質(zhì)的研究多從西醫(yī)的生理理化指標來揭示證的實質(zhì),但實踐中卻發(fā)現(xiàn)缺少證的特異性指標。如果從分子生物學的角度,利用數(shù)據(jù)挖掘技術(shù)對中醫(yī)證與相關(guān)基因的對應關(guān)系,可能取得更好
8、的結(jié)果。通過研究“證”和基因多態(tài)性之間的內(nèi)在聯(lián)系,從基因多態(tài)性所帶來的該基因功能上的變化,由此探尋“證”的相關(guān)基因表達譜。