資源描述:
《數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)方面的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)方面的應(yīng)用作者:河北聯(lián)合大學(xué),唐山063000E-mail:283742524@qq.com摘 要:對(duì)數(shù)據(jù)挖掘的概念,醫(yī)學(xué)數(shù)據(jù)的特殊性以及醫(yī)學(xué)數(shù)據(jù)挖掘的關(guān)鍵技術(shù)做詳細(xì)的闡述,介紹在醫(yī)學(xué)當(dāng)中數(shù)據(jù)挖掘如何應(yīng)用,并給出具體實(shí)例。關(guān)鍵詞:數(shù)據(jù)挖掘;醫(yī)學(xué);技術(shù);應(yīng)用0前言隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展,在醫(yī)療機(jī)構(gòu)中大量的醫(yī)療數(shù)據(jù)被精確地統(tǒng)計(jì)下來。同時(shí),電子病例和病案的大量應(yīng)用、醫(yī)療設(shè)備和儀器的數(shù)字化,使得醫(yī)院數(shù)據(jù)庫的信息量劇增,這些珍貴的醫(yī)學(xué)信息資源對(duì)于疾病的診斷、治療和研究都是非常有價(jià)值的,然而目前的
2、數(shù)據(jù)庫系統(tǒng)無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì),因此,如何從這些海量的數(shù)據(jù)中,挖掘出有用的信息,為疾病的防控、診斷、治療和醫(yī)學(xué)研究的發(fā)展具有重大意義。1醫(yī)學(xué)數(shù)據(jù)挖掘技術(shù)1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是近年來隨著數(shù)據(jù)庫和人工智能技術(shù)發(fā)展而出現(xiàn)的一種新興信息技術(shù)。就是從大量的、不完全的、有噪聲的、模糊的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識(shí)的過程,它能高度自動(dòng)化地分析數(shù)據(jù)倉庫原有數(shù)據(jù),做出歸納性推理,挖掘出潛在的模式,最大效能地利用已有信息
3、和數(shù)據(jù)。1.2醫(yī)學(xué)數(shù)據(jù)挖掘的特殊性醫(yī)學(xué)數(shù)據(jù)挖掘的主要研究對(duì)象是臨床醫(yī)療信息,反映了醫(yī)學(xué)信息的獨(dú)特之處:1)模式多態(tài)性:醫(yī)學(xué)信息包括純數(shù)據(jù)、信號(hào)、圖像、文字以及語音和視頻信息等多態(tài)性數(shù)據(jù)。2)信息不完整性:病例和病案的有限性使醫(yī)學(xué)數(shù)據(jù)庫不可能對(duì)任何一種疾病信息都能全面地反映,疾病信息所體現(xiàn)出的客觀不完整性和描述疾病的主觀不確切性,形成了醫(yī)學(xué)信息的不完整性。3)數(shù)據(jù)的時(shí)序性:病人的就診、疾病的發(fā)病過程在時(shí)間上有一個(gè)進(jìn)度,醫(yī)學(xué)檢測(cè)的波型、圖像都是時(shí)間函數(shù),這些都具有一定的時(shí)序性。4)數(shù)據(jù)冗余性:醫(yī)學(xué)數(shù)據(jù)庫是一個(gè)
4、龐大的數(shù)據(jù)資源,有大量相同的或部分相同的信息存儲(chǔ)在其中。1.3醫(yī)學(xué)數(shù)據(jù)挖掘的關(guān)鍵技術(shù)醫(yī)學(xué)數(shù)據(jù)的特點(diǎn)使其與常規(guī)的數(shù)據(jù)挖掘之間存在較大的差異,其關(guān)鍵技術(shù)如下:1)數(shù)據(jù)預(yù)處理:醫(yī)學(xué)數(shù)據(jù)庫中包括大量模糊的、不完整的、帶有噪聲和冗余的信息,必須對(duì)這些信息進(jìn)行清理和過濾,填充缺失的值、光滑噪聲、糾正數(shù)據(jù)中的不一致,以確保數(shù)據(jù)的一致性和確定性。2)數(shù)據(jù)集成技術(shù):要進(jìn)行數(shù)據(jù)挖掘的醫(yī)學(xué)信息一般是多態(tài)性的,應(yīng)將這些數(shù)據(jù)源中的數(shù)據(jù)整合到一起,使其在屬性上趨同或一致。3)數(shù)據(jù)歸約與魯棒的挖掘算法:醫(yī)學(xué)數(shù)據(jù)庫是一個(gè)海量的信息庫,要
5、從中提取知識(shí),需要花費(fèi)大量的時(shí)間,因此必須考慮醫(yī)學(xué)數(shù)據(jù)挖掘的效率問題。數(shù)據(jù)歸約技術(shù)用于從原有的龐大的數(shù)據(jù)庫中獲得一個(gè)精簡(jiǎn)的數(shù)據(jù)集合,并使其保持原有數(shù)據(jù)集的完整性,從而提高數(shù)據(jù)挖掘的效率,并且使挖掘出來的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。同時(shí),醫(yī)學(xué)數(shù)據(jù)庫的類型較多,并且又是動(dòng)態(tài)變化的,要求挖掘算法具有一定的容錯(cuò)性和魯棒性。4)準(zhǔn)確性和可靠性:醫(yī)學(xué)數(shù)據(jù)挖掘的主要目的是為醫(yī)療活動(dòng)和管理提供科學(xué)的決策,因此必須保證挖掘算法所提供的知識(shí)具有較高的準(zhǔn)確率和可靠性①2醫(yī)學(xué)數(shù)據(jù)挖掘應(yīng)用1)疾病診斷、預(yù)測(cè):數(shù)據(jù)挖掘可
6、以通過對(duì)患者大量的數(shù)據(jù)資料的處理,挖掘出有價(jià)值的診斷規(guī)則,建立預(yù)測(cè)模型,再對(duì)這個(gè)模型進(jìn)行測(cè)試,得到合適的算法模型,利用這種模型可以輔助臨床醫(yī)學(xué)診斷。如借助數(shù)據(jù)挖掘技術(shù)中的貝葉斯(Bayes)網(wǎng)絡(luò)技術(shù)來研究抑郁癥的中醫(yī)證候規(guī)律。2)遺傳基因:遺傳學(xué)的研究表明,遺傳疾病的發(fā)生是由基因決定的,如何從大量的DNA數(shù)據(jù)中找到具有統(tǒng)計(jì)特異性的序列就成為最迫切需要解決的問題。建立良好的系統(tǒng)模型將基因組數(shù)據(jù)進(jìn)行有效地存儲(chǔ)、分析和挖掘,從而獲取大量有價(jià)值的知識(shí)。3)醫(yī)學(xué)圖像挖掘:醫(yī)學(xué)圖像是利用人體內(nèi)不同器官和組織對(duì)X射線、
7、超聲波、光線等的散射、透射、反射和吸收的不同特性而形成的,為人體骨骼、內(nèi)臟器官疾病和損傷進(jìn)行診斷、定位提供了有效的手段,對(duì)醫(yī)學(xué)圖像的存儲(chǔ)與挖掘?qū)?duì)人體內(nèi)部器官的診斷與治療具有重大意義。3應(yīng)用舉例關(guān)聯(lián)規(guī)則在中醫(yī)疾病癥候診斷中的應(yīng)用:通過采用基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法,可以得到很有價(jià)值的一些規(guī)則,如從《傷寒論》中的病名,癥狀,舌苔分別作為數(shù)據(jù)表建立數(shù)據(jù)庫,挖掘得出:規(guī)則1:發(fā)熱、惡寒、脈浮身,能夠得出太陽病(支持度65%,置信度5%,興趣度1.2),說明《傷寒論》里提到的發(fā)熱、惡寒、脈浮、太陽病的條文占65%
8、之多,該規(guī)則很有意義,可以認(rèn)為發(fā)熱、惡寒的確是太陽病的診斷依據(jù)。規(guī)則2:脈緊,得出太陽病(支持度30%,置信度l%)支持度與置信度小,故認(rèn)為不能單獨(dú)憑脈緊就診斷為太陽病。規(guī)則3:脈弦,得出太陽病(支持度0.5%,置信度0.5%)支持度與置信度都太小,可以認(rèn)為脈弦根本不是太陽病的備選證候。②4結(jié)束語醫(yī)學(xué)數(shù)據(jù)庫的信息量非常龐大,其數(shù)據(jù)又具有自身的獨(dú)特性。要想充分利用豐富而寶貴的醫(yī)學(xué)資源,必須選擇適合醫(yī)學(xué)數(shù)據(jù)類型的數(shù)據(jù)挖掘工具及挖掘