資源描述:
《數(shù)據(jù)挖掘在醫(yī)學方面的應用》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、數(shù)據(jù)挖掘在醫(yī)學方面的應用摘要:著信息技術的發(fā)展,采集、存儲和管理數(shù)據(jù)的手段日益完善。數(shù)據(jù)挖掘學科應運而生。本文介紹數(shù)據(jù)挖掘的概念和應用,以及國內醫(yī)學方面數(shù)據(jù)挖掘的應用現(xiàn)狀及展望。關鍵字:數(shù)據(jù)挖掘醫(yī)學Abstract:Thedisciplineofdataminingemergeswiththedevelopmentoftechnologyandmaturationofmethodsofdatacollection,storageandmanagement.Thepaperintroducestheconceptofdat
2、amining.Thispaperintroducesdataminingconceptsandapplications,aswellasdomesticmedicaldataminingapplicationstatusanditsprospect.KeyWords:datamining;biomedical1引言隨著數(shù)據(jù)庫技術的飛速發(fā)展,信息技術已滲透到包括醫(yī)學在內的各種領域。很多大中型醫(yī)院都相繼建立了自己的醫(yī)院信息系統(tǒng)(HIS),隨著HIS的應用和不斷發(fā)展,數(shù)據(jù)庫中的數(shù)據(jù)量迅速膨脹,數(shù)據(jù)庫規(guī)模逐漸擴大,復雜程度日益
3、增加。但是盡管積累了大量的業(yè)務數(shù)據(jù),真正能將這些數(shù)據(jù)的價值挖掘出來,并運用到醫(yī)院的臨床輔助診斷和日常管理決策中去的卻很少。提出了建立基于HIS系統(tǒng)的醫(yī)學信息數(shù)據(jù)倉庫,在此基礎上,對數(shù)據(jù)倉庫中的醫(yī)療數(shù)據(jù)進行疾病監(jiān)測、預測、醫(yī)院管理輔助決策等方面的數(shù)據(jù)挖掘。為醫(yī)務工作者、臨床管理人員、科研人員提供輔助決策與綜合分析的工具。在醫(yī)療方面具有重要的意義。2.數(shù)據(jù)挖掘技術介紹2.1數(shù)據(jù)挖掘額的概念數(shù)據(jù)挖掘是商務智能應用中較高層次的一項技術,是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又
4、是潛在有用的信息和知識的過程1。利用數(shù)據(jù)挖掘用戶將可以更加方便地發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,用戶可以利用這些規(guī)律對某些符合特征的數(shù)據(jù)作出預測。數(shù)據(jù)挖掘所得到的信息應具有先未知,有效和可實用三個特征。先未知是指數(shù)據(jù)挖掘所得到的信息應該是先前不能憑直覺或一般的技術方法所能得到的信息,挖掘到的住處越是出乎意料就可能越有價值。在這方面的一個典型例子就是一家連鎖商店通過數(shù)據(jù)挖掘發(fā)現(xiàn)小孩尿布和啤酒之間有著驚人的聯(lián)系。而有效和可實用是數(shù)據(jù)挖掘的目的所在。數(shù)據(jù)挖掘的分析方法有很多種,針對不同的用途就有不同的分析方法,比較常見的分析方法有一下集幾種:
5、分類、預測、相關性分組活關聯(lián)規(guī)則、聚類、估值、描述和可視化、復雜數(shù)據(jù)類型挖掘,包括文本數(shù)據(jù)挖掘。WEB數(shù)據(jù)挖掘、圖形圖像數(shù)據(jù)挖掘、視頻和音頻數(shù)據(jù)挖掘。2.2數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘的過程一般由三個主要的階段構成:數(shù)據(jù)準備、開采操作、結果表達和解釋,對知識的發(fā)現(xiàn)可以描述為這三個階段的反復過程。(1)數(shù)據(jù)準備這個階段又可進一步分成三個子步驟:數(shù)據(jù)集成,數(shù)據(jù)選擇、數(shù)據(jù)預處理。數(shù)據(jù)集成將多文件和多數(shù)據(jù)庫運行環(huán)境中的數(shù)據(jù)進行組合,解決語義模糊性,處理數(shù)據(jù)中的遺漏和清洗無效數(shù)據(jù)等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍
6、,提高數(shù)據(jù)挖掘的質量。預處理是為了克服目前數(shù)據(jù)挖掘工具的局限性。(2)數(shù)據(jù)挖掘這個階段進行實際性分析工作,包括的要點是:先決定如何產生假設,是讓數(shù)據(jù)挖掘系統(tǒng)為用戶產生假設,還是用戶自己對數(shù)據(jù)庫中可能包含的知識提出假設,前一種稱為發(fā)現(xiàn)型的數(shù)據(jù)挖掘;后一種稱為驗證型的數(shù)據(jù)挖掘。再選擇合適的工具進行發(fā)掘知識的操作,最后進行證實。(3)結果表述和解釋根據(jù)用戶的需求對提取的信息進行分析,挑選出有效信息,并且通過決策支持工具進行移交。因此,這一步驟的任務不僅是把結果表達出來(例如采用信息可視化方法),還要對信息進行過濾處理,如果不能
7、令用戶滿意,需要重復以上數(shù)據(jù)挖掘的過此,這一步驟的任務不僅是把結果表達出來(例如采用信息可視化方法),還要對信息進行過濾處理,如果不能令用戶滿意,需要重復以上數(shù)據(jù)挖掘的過程。2.3數(shù)據(jù)挖掘的功能(1)自動預測趨勢和行為:數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結論。(2)關聯(lián)分析:數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)
8、網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關聯(lián)函數(shù),即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)則帶有可信度。(3)聚類:數(shù)據(jù)庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。(4)概念描述:概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特