資源描述:
《數(shù)據(jù)挖掘及其在中醫(yī)領(lǐng)域的應(yīng)用研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、數(shù)據(jù)挖掘及其在中醫(yī)領(lǐng)域的應(yīng)用研究作者:丁維蔣永光宋姚屏吳孟旭李昆【摘要】 介紹了數(shù)據(jù)挖掘的意義和任務(wù),綜述了近幾年來數(shù)據(jù)挖掘在中醫(yī)各領(lǐng)域中的應(yīng)用,分析了目前存在的問題,并探討了今后的發(fā)展趨勢。【關(guān)鍵詞】數(shù)據(jù)挖掘 中醫(yī) 隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,在中醫(yī)藥的現(xiàn)代化過程中建立了很多的數(shù)據(jù)庫。堆積在數(shù)據(jù)庫中的信息呈超指數(shù)爆炸式增長。例如中醫(yī)藥科技信息數(shù)據(jù)庫就有50個子數(shù)據(jù)庫、110個表單及數(shù)百個自動生成的中間表、800余個著錄項(xiàng)目,涵蓋所有中醫(yī)藥有關(guān)醫(yī)、藥及學(xué)術(shù)的內(nèi)容。而數(shù)據(jù)挖掘技術(shù)的發(fā)展使我們有可能從這些海量數(shù)據(jù)中發(fā)現(xiàn)新的知識,發(fā)現(xiàn)數(shù)據(jù)背后隱藏的關(guān)系和規(guī)則,還可以對未知的情況進(jìn)行預(yù)測。
2、多學(xué)科交叉目前正成為增強(qiáng)科技創(chuàng)新的重要途徑,數(shù)據(jù)挖掘正是從統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)等多門學(xué)科中發(fā)展起來的。 1數(shù)據(jù)挖掘介紹 1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘(datamining)也稱為數(shù)據(jù)庫知識發(fā)現(xiàn),為解決上述矛盾提供了強(qiáng)有力的工具[1]。數(shù)據(jù)挖掘這一術(shù)語出現(xiàn)于1989年,其定義幾經(jīng)變動,本研究中引用FrayyadUM等提出的對數(shù)據(jù)挖掘的定義[2]。數(shù)據(jù)挖掘是從數(shù)據(jù)庫中識別出有效的、新穎的、潛在有用的并且最終可理解的模式的非平凡過程。其中:①有效性要求挖掘前要對被挖掘的數(shù)據(jù)進(jìn)行仔細(xì)檢查,具備該特性,才能保證挖掘出來信息的可靠性。②新穎性要求發(fā)現(xiàn)的模式應(yīng)該是從前未知的,甚至是違背直覺的信息或知
3、識,挖掘出的信息越是出乎意料,就可能越有價值。③潛在有用性是指發(fā)現(xiàn)的知識將來有實(shí)際效用,即這些信息或知識對于所討論的業(yè)務(wù)或研究領(lǐng)域是有效的、是有實(shí)用價值和可實(shí)現(xiàn)的,常識性的結(jié)論或已被人們掌握的事實(shí)或無法實(shí)現(xiàn)的推測都是沒有意義的。④最終可理解性要求發(fā)現(xiàn)的模式能被用戶理解,目前它主要是體現(xiàn)在簡潔性上。發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用,最好能用自然語言表達(dá)所發(fā)現(xiàn)的結(jié)果。實(shí)際上,所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件,面向特定領(lǐng)域的。⑤非平凡是一個數(shù)學(xué)概念,即數(shù)據(jù)挖掘既不是把數(shù)據(jù)全部抽取,也不是一點(diǎn)兒也不抽取,而是抽取出隱含的、未知的、可能的有用的信息。要有一定程度的智能性、自動性(僅僅給
4、出所有數(shù)據(jù)的總和不能算作是一個發(fā)現(xiàn)過程)。數(shù)據(jù)挖掘的結(jié)果通常表示為概念(concepts)、規(guī)則(rules)、規(guī)律(regularities)、模式(pattern)、約束(constraint)、可視化(visualization)等形式。這些知識可以直接提供給決策者,用于輔助決策過程;或者提供給領(lǐng)域?qū)<?,修正專家的已有的知識體系;也可以作為新的知識轉(zhuǎn)存到應(yīng)用系統(tǒng)中,作為實(shí)際事務(wù)處理中決策的依據(jù)[3]。 2數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的任務(wù)主要是預(yù)測和描述。預(yù)測是指用一些變量或數(shù)據(jù)庫的若干已知字段預(yù)測其他感興趣的變量或字段的未知的或未來的值。描述是指找到描述數(shù)據(jù)的可理解模式。預(yù)測方法有統(tǒng)計(jì)分析
5、、關(guān)聯(lián)規(guī)則和決策樹預(yù)測、回歸樹預(yù)測等。其中關(guān)聯(lián)規(guī)則反映了一個事務(wù)與其他事務(wù)之間存在關(guān)聯(lián),那么就能根據(jù)其他已知事務(wù)預(yù)測到另一個事務(wù)。描述性方法主要有數(shù)據(jù)分類、回歸分析、聚類、變化和偏差分析、模式發(fā)現(xiàn)等?! ?數(shù)據(jù)挖掘在中醫(yī)藥中的應(yīng)用中醫(yī)藥的發(fā)展也需要多門學(xué)科的交叉應(yīng)用。數(shù)據(jù)挖掘最初在生物醫(yī)學(xué)中的應(yīng)用是在對基因組測序數(shù)據(jù)的分析,因?yàn)槿祟惢蚪M計(jì)劃研究中產(chǎn)生了數(shù)十億的核苷酸和上百萬的氨基酸,傳統(tǒng)的統(tǒng)計(jì)方法無能為力。中醫(yī)學(xué)具有系統(tǒng)性、整體性、復(fù)雜性、不確定性等特點(diǎn),不適宜運(yùn)用傳統(tǒng)的還原論的方法研究,而適宜與數(shù)據(jù)挖掘類似的從整體觀上入手的研究方法。數(shù)據(jù)挖掘可以從海量數(shù)據(jù)中挖掘出潛在的規(guī)律,數(shù)據(jù)挖掘的結(jié)果
6、一部分可能與傳統(tǒng)的診療規(guī)律相符,不符合的部分可能是潛在的新知,也可能是沒有意義的,這都需要在相應(yīng)目標(biāo)領(lǐng)域?qū)<业闹笇?dǎo)下進(jìn)行解釋和評價。將數(shù)據(jù)挖掘(DM)和知識發(fā)現(xiàn)(DMKD)應(yīng)用于中醫(yī)藥領(lǐng)域的研究,是中醫(yī)藥現(xiàn)代化研究的重要組成部分[1],必將促進(jìn)中醫(yī)藥的發(fā)展。而數(shù)據(jù)挖掘在中藥藥譜研究和新藥開發(fā)中取得了一定進(jìn)展,本研究主要對其在中醫(yī)以下領(lǐng)域的研究作一介紹?! ?.1證實(shí)質(zhì)的研究中醫(yī)的“證”又稱“證候”,是疾病在某一階段病變的本質(zhì)反映,是由一組能反映疾病本質(zhì)的癥狀組成的,能揭示病因、病位、病性、病勢,為論治提供依據(jù)。證候是中醫(yī)診斷的核心概念和理論精髓,具有整體性、抽象性、時間性和相對穩(wěn)定性的特點(diǎn)?,F(xiàn)
7、在對證實(shí)質(zhì)的研究多從西醫(yī)的生理理化指標(biāo)來揭示證的實(shí)質(zhì),但實(shí)踐中卻發(fā)現(xiàn)缺少證的特異性指標(biāo)。如果從分子生物學(xué)的角度,利用數(shù)據(jù)挖掘技術(shù)對中醫(yī)證與相關(guān)基因的對應(yīng)關(guān)系,可能取得更好的結(jié)果。通過研究“證”和基因多態(tài)性之間的內(nèi)在聯(lián)系,從基因多態(tài)性所帶來的該基因功能上的變化,由此探尋“證”的相關(guān)基因表達(dá)譜?! ?.2中醫(yī)診斷中醫(yī)診斷過程主要是對證的判定。而現(xiàn)在證的標(biāo)準(zhǔn)不太規(guī)范,缺乏定量的標(biāo)準(zhǔn),而且其分類與描述也存