資源描述:
《中藥方劑數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、中藥方劑數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理研究:中藥方劑的數(shù)據(jù)挖掘是在中國傳統(tǒng)中藥方劑中,應(yīng)用數(shù)據(jù)挖掘方法,在中醫(yī)理論指導(dǎo)下,探尋藥物之間的相互聯(lián)系和整體用藥規(guī)律。對中藥方劑的數(shù)據(jù)預(yù)處理研究,是將藥物的四氣五味、功效、歸經(jīng)、有無毒性等信息轉(zhuǎn)化為數(shù)字信息,從而在進行中藥方劑數(shù)據(jù)挖掘中更為精確,為中藥方劑研究和臨床實踐研究提供理論參考。 關(guān)鍵詞:數(shù)據(jù)挖掘;中藥方劑;數(shù)據(jù)預(yù)處理 中文分類號:TP315:A:1009-3044(2011)17-4016-02 1緒言 中國悠久的中醫(yī)藥文化,是我國璀璨的文化瑰寶。隨著現(xiàn)在社會的發(fā)展,人們越來越重視到中醫(yī)藥的強身保健
2、作用。中藥方劑是中醫(yī)藥文化的重要組成部分,如何對數(shù)目龐大的手工匯總的中藥方劑進行定量和分析,已經(jīng)成為實現(xiàn)中藥現(xiàn)代化的重要工作。中藥方劑的數(shù)據(jù)挖掘研究,就要將我國豐富的中藥資源和信息技術(shù)相結(jié)合,通過整理龐大的中藥文獻資料,為中藥信息處理、轉(zhuǎn)化及傳播現(xiàn)代化做好準備工作。 中藥方劑的數(shù)據(jù)挖掘研究,是將知識發(fā)現(xiàn)理論運用在中藥的作用機制、中藥方劑配伍規(guī)律、中藥的藥性功效關(guān)系等方面。在中藥方劑的數(shù)據(jù)挖掘工作中,數(shù)據(jù)預(yù)處理是重要的數(shù)據(jù)準備與處理過程,工作量將占到50%以上。由于中藥方劑多為手工記錄和匯總,同時我國地域廣大,中醫(yī)藥文化帶有地域性差別,這也給中藥方劑
3、的數(shù)據(jù)預(yù)處理工作帶來了難度?! ?中藥方劑數(shù)據(jù)挖掘的發(fā)展 目前我國尚未建立比較完整的中藥方劑數(shù)據(jù)挖掘系統(tǒng),現(xiàn)有數(shù)據(jù)庫只能提供檢索、統(tǒng)計等一般性服務(wù),其包涵的大量隱含知識并未得到充分的挖掘和利用。由于國外使用數(shù)據(jù)挖掘技術(shù)較早,西藥的新藥開發(fā)研究已經(jīng)大量利用數(shù)據(jù)挖掘技術(shù)?! ‰S著在世界范圍內(nèi),中藥的功效越來越受到人們的重視,中藥產(chǎn)業(yè)的發(fā)展前景也更加廣闊。因此,加快中藥方劑的數(shù)據(jù)挖掘工作,不僅可以提高我國現(xiàn)有中藥數(shù)據(jù)庫的利用價值,縮短我國中藥新藥開發(fā)的周期,還可以避免中藥信息資源的流失,真正提高我國中藥產(chǎn)業(yè)在國際上的競爭力?! 〗?jīng)過多年的努力,我國中醫(yī)藥
4、界已經(jīng)有一批科研院所及大專院校建成了一定數(shù)量的中醫(yī)藥文獻型和事實型數(shù)據(jù)庫,初步滿足了中醫(yī)藥界文獻檢索的需要。如國家中醫(yī)藥管理局建立的“中醫(yī)藥文獻數(shù)據(jù)庫”、“中醫(yī)藥報刊文獻數(shù)據(jù)庫”,北京中醫(yī)藥大學(xué)建立的“中藥方劑數(shù)據(jù)庫”,北京中醫(yī)研究院建立的“中國中藥數(shù)據(jù)庫”,浙江大建立的中醫(yī)藥科技數(shù)據(jù)庫群等。 但是目前建立的大多數(shù)中藥方劑數(shù)據(jù)庫,只能提供檢索和統(tǒng)計的服務(wù),而沒有對隱含在數(shù)據(jù)中的大量隱藏信息進行有效的利用。如何進一步深入將數(shù)據(jù)挖掘技術(shù)應(yīng)用在中藥方劑的研制和中藥配伍的過程中,將為我國的中醫(yī)藥理論研究提供新的思路和方法,為新藥的研制帶來更大的發(fā)展契機。
5、 3中藥方劑的數(shù)據(jù)預(yù)處理 對中藥方劑數(shù)據(jù)挖掘進行預(yù)處理,目的是初步將中藥方劑轉(zhuǎn)化為便于處理的數(shù)據(jù)。中國幾千年的中醫(yī)藥發(fā)展歷史,積累了大量的文獻資料,但是由于其中包含的大多為醫(yī)藥實踐的原始記錄和經(jīng)驗,沒有經(jīng)過系統(tǒng)的整理,規(guī)范化程度比較低,所以對方劑信息進行預(yù)處理是非常必要的。而且由于數(shù)據(jù)挖掘工作對數(shù)據(jù)的要求比較高,數(shù)據(jù)預(yù)處理在整個數(shù)據(jù)挖掘過程中占有超過一半的時間,這也給中藥方劑的數(shù)據(jù)預(yù)處理帶來了更大的難度和更多的工作量?! 榻鉀Q以上問題,模糊集理論、數(shù)據(jù)規(guī)約技術(shù)等提高了很好的適合中醫(yī)藥數(shù)據(jù)挖掘的預(yù)處理方法。通過對中藥方劑進行預(yù)處理以后,可以更好的發(fā)
6、現(xiàn)各種藥物之間的關(guān)聯(lián)和功效之間的影響關(guān)系,為中成藥的新藥研制提供理論支持?! ?shù)據(jù)預(yù)處理主要是對數(shù)據(jù)進行規(guī)格化操作。在正式進行數(shù)據(jù)挖掘之前,尤其是使用基于對象距離(distance一based)的挖掘算法時,如神經(jīng)X絡(luò)、k一最近鄰分類(nearestneighborclassifier)等,必須進行數(shù)據(jù)規(guī)格化。也就是將中藥數(shù)據(jù)信息轉(zhuǎn)化為可操作信息并縮至特定的范圍內(nèi)。中藥本身具有相當(dāng)豐富的信息,包括藥物的四氣五味、功效、歸經(jīng)、有無毒性等方面。四性和五味不僅反映了藥性特征,通過氣味和合,又進一步?jīng)Q定方劑之性能,因此是重要的方劑信息。但中醫(yī)對四性的認識是比
7、較模糊的,為了在對方劑中的藥物進行數(shù)據(jù)挖掘分析更為精確,研究中對上述信息轉(zhuǎn)換為數(shù)字化形式?! ≡谥兴幏絼?shù)據(jù)庫中,對于方劑表、癥狀表由于歷史的傳承以及方劑多為手工記錄的原因,存在著空白字段、重復(fù)數(shù)據(jù)、中藥名稱和癥狀描述不規(guī)范等現(xiàn)象,經(jīng)過預(yù)處理流程的修正和過濾,可以建立符合數(shù)據(jù)挖掘的規(guī)范標準?! ?)對噪聲數(shù)據(jù)的處理 由于中藥方劑的歷史跨度很大,有的藥物命名和癥狀的表述,在不同的朝代都是不一致的,而且多為人工記錄,這樣造成了噪聲數(shù)據(jù)很多。如果對于這些噪聲數(shù)據(jù)處理的不好,會直接影響到后期的數(shù)據(jù)挖掘效果。首先應(yīng)該對數(shù)據(jù)庫中的缺損數(shù)據(jù)、重復(fù)數(shù)據(jù)進行篩選和過
8、濾,同時對錯誤數(shù)據(jù)進行修改?! ≡谥兴幏絼┟枋鲋?,常出現(xiàn)一詞多義、詞義模糊、語義重疊等現(xiàn)象。如“眩暈”一詞,