資源描述:
《數(shù)據(jù)挖掘在醫(yī)學(xué)方面的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、數(shù)據(jù)挖掘在醫(yī)學(xué)方面的應(yīng)用摘要:著信息技術(shù)的發(fā)展,采集、存儲(chǔ)和管理數(shù)據(jù)的手段日益完善。數(shù)據(jù)挖掘?qū)W科應(yīng)運(yùn)而生。本文介紹數(shù)據(jù)挖掘的概念和應(yīng)用,以及國(guó)內(nèi)醫(yī)學(xué)方面數(shù)據(jù)挖掘的應(yīng)用現(xiàn)狀及展望。關(guān)鍵字:數(shù)據(jù)挖掘醫(yī)學(xué)Abstract:Thedisciplineofdataminingemergeswiththedevelopmentoftechnologyandmaturationofmethodsofdatacollection,storageandmanagement.Thepaperintroducestheconceptofdat
2、amining.Thispaperintroducesdataminingconceptsandapplications,aswellasdomesticmedicaldataminingapplicationstatusanditsprospect.KeyWords:datamining;biomedical1引言隨著數(shù)據(jù)庫(kù)技術(shù)的飛速發(fā)展,信息技術(shù)已滲透到包括醫(yī)學(xué)在內(nèi)的各種領(lǐng)域。很多大中型醫(yī)院都相繼建立了自己的醫(yī)院信息系統(tǒng)(HIS),隨著HIS的應(yīng)用和不斷發(fā)展,數(shù)據(jù)庫(kù)中的數(shù)據(jù)量迅速膨脹,數(shù)據(jù)庫(kù)規(guī)模逐漸擴(kuò)大,復(fù)雜程度日益
3、增加。但是盡管積累了大量的業(yè)務(wù)數(shù)據(jù),真正能將這些數(shù)據(jù)的價(jià)值挖掘出來,并運(yùn)用到醫(yī)院的臨床輔助診斷和日常管理決策中去的卻很少。提出了建立基于HIS系統(tǒng)的醫(yī)學(xué)信息數(shù)據(jù)倉(cāng)庫(kù),在此基礎(chǔ)上,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的醫(yī)療數(shù)據(jù)進(jìn)行疾病監(jiān)測(cè)、預(yù)測(cè)、醫(yī)院管理輔助決策等方面的數(shù)據(jù)挖掘。為醫(yī)務(wù)工作者、臨床管理人員、科研人員提供輔助決策與綜合分析的工具。在醫(yī)療方面具有重要的意義。2.數(shù)據(jù)挖掘技術(shù)介紹2.1數(shù)據(jù)挖掘額的概念數(shù)據(jù)挖掘是商務(wù)智能應(yīng)用中較高層次的一項(xiàng)技術(shù),是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又
4、是潛在有用的信息和知識(shí)的過程1。利用數(shù)據(jù)挖掘用戶將可以更加方便地發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,用戶可以利用這些規(guī)律對(duì)某些符合特征的數(shù)據(jù)作出預(yù)測(cè)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征。先未知是指數(shù)據(jù)挖掘所得到的信息應(yīng)該是先前不能憑直覺或一般的技術(shù)方法所能得到的信息,挖掘到的住處越是出乎意料就可能越有價(jià)值。在這方面的一個(gè)典型例子就是一家連鎖商店通過數(shù)據(jù)挖掘發(fā)現(xiàn)小孩尿布和啤酒之間有著驚人的聯(lián)系。而有效和可實(shí)用是數(shù)據(jù)挖掘的目的所在。數(shù)據(jù)挖掘的分析方法有很多種,針對(duì)不同的用途就有不同的分析方法,比較常見的分析方法有一下集幾種:
5、分類、預(yù)測(cè)、相關(guān)性分組活關(guān)聯(lián)規(guī)則、聚類、估值、描述和可視化、復(fù)雜數(shù)據(jù)類型挖掘,包括文本數(shù)據(jù)挖掘。WEB數(shù)據(jù)挖掘、圖形圖像數(shù)據(jù)挖掘、視頻和音頻數(shù)據(jù)挖掘。2.2數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘的過程一般由三個(gè)主要的階段構(gòu)成:數(shù)據(jù)準(zhǔn)備、開采操作、結(jié)果表達(dá)和解釋,對(duì)知識(shí)的發(fā)現(xiàn)可以描述為這三個(gè)階段的反復(fù)過程。(1)數(shù)據(jù)準(zhǔn)備這個(gè)階段又可進(jìn)一步分成三個(gè)子步驟:數(shù)據(jù)集成,數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。數(shù)據(jù)集成將多文件和多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行組合,解決語(yǔ)義模糊性,處理數(shù)據(jù)中的遺漏和清洗無效數(shù)據(jù)等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍
6、,提高數(shù)據(jù)挖掘的質(zhì)量。預(yù)處理是為了克服目前數(shù)據(jù)挖掘工具的局限性。(2)數(shù)據(jù)挖掘這個(gè)階段進(jìn)行實(shí)際性分析工作,包括的要點(diǎn)是:先決定如何產(chǎn)生假設(shè),是讓數(shù)據(jù)挖掘系統(tǒng)為用戶產(chǎn)生假設(shè),還是用戶自己對(duì)數(shù)據(jù)庫(kù)中可能包含的知識(shí)提出假設(shè),前一種稱為發(fā)現(xiàn)型的數(shù)據(jù)挖掘;后一種稱為驗(yàn)證型的數(shù)據(jù)挖掘。再選擇合適的工具進(jìn)行發(fā)掘知識(shí)的操作,最后進(jìn)行證實(shí)。(3)結(jié)果表述和解釋根據(jù)用戶的需求對(duì)提取的信息進(jìn)行分析,挑選出有效信息,并且通過決策支持工具進(jìn)行移交。因此,這一步驟的任務(wù)不僅是把結(jié)果表達(dá)出來(例如采用信息可視化方法),還要對(duì)信息進(jìn)行過濾處理,如果不能
7、令用戶滿意,需要重復(fù)以上數(shù)據(jù)挖掘的過此,這一步驟的任務(wù)不僅是把結(jié)果表達(dá)出來(例如采用信息可視化方法),還要對(duì)信息進(jìn)行過濾處理,如果不能令用戶滿意,需要重復(fù)以上數(shù)據(jù)挖掘的過程。2.3數(shù)據(jù)挖掘的功能(1)自動(dòng)預(yù)測(cè)趨勢(shì)和行為:數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。(2)關(guān)聯(lián)分析:數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)
8、網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。(3)聚類:數(shù)據(jù)庫(kù)中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。(4)概念描述:概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。概念描述分為特