資源描述:
《基于局部逼近的數(shù)據(jù)分析及其在人臉識別和基因微陣列缺失值估計中的應用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、中山大學博士學位論文基于局部逼近的數(shù)據(jù)分析及其在人臉識別和基因微陣列缺失值估計中的應用姓名:劉朝春申請學位級別:博士專業(yè):應用數(shù)學指導教師:戴道清20090601摘要論文題目:專業(yè):博士生:指導教師:基于局部逼近的數(shù)據(jù)分析及其在人臉識別和基因微陣列缺失值估計中的應用應用數(shù)學劉朝春戴道清教授隨著信息技術(shù)的迅速發(fā)展,生物醫(yī)學、工程、商業(yè)、科學研究等各個領(lǐng)域積累了大量的數(shù)據(jù),并且數(shù)據(jù)積累的速度越來越快。數(shù)據(jù)積累的目的往往是希望從中挖掘出一些有用的信息,因此數(shù)據(jù)分析成為社會信息化必不可少的一個要素。通常數(shù)據(jù)分析主要有三個根本任務:分類、回歸和聚類分析,它們都包含了兩
2、個核心要素:數(shù)據(jù)以及它們的分布函數(shù)。本文以這兩個要素為軸線將三個根本任務統(tǒng)一在逼近分析的框架內(nèi),即:對數(shù)據(jù)本身的逼近、對數(shù)據(jù)分布函數(shù)的逼近。由于很多數(shù)據(jù)的維數(shù)都較高,且含有噪音,因此不僅數(shù)據(jù)自身的內(nèi)部結(jié)構(gòu)復雜,它們的分布函數(shù)也是多呈非線性、非凸的復雜分布,對這些數(shù)據(jù)做全局逼近往往效果較差,或者復雜度很高。因此本文著重于研究基于局部逼近的數(shù)據(jù)分析,及其在人臉圖像分析與識別、基因微陣列缺失數(shù)據(jù)估計中的應用。在對數(shù)據(jù)本身的局部逼近方面,本文主要探討基于小波基的人臉圖像特征逼近,及其在人臉識別中的應用。人臉圖像由于受到光照、姿勢、表情、平移、遮擋物的外部影響,在空間
3、域上的結(jié)構(gòu)十分復雜。因此人臉識別的關(guān)鍵就在于如何有效地提取不受外部變化影響的人臉特征,目前這仍然是一個開放性的問題。在對數(shù)據(jù)分布函數(shù)的逼近方面,本文主要探討局部加權(quán)逼近的泛化模型,并將這個模型應用于基因微陣列缺失數(shù)據(jù)的估計。這雖然是一個基因數(shù)據(jù)的預處理過程,但是卻直接影響到基因數(shù)據(jù)的后續(xù)分析,因此也是至關(guān)重要的。針對這些問題,本文主要有如下的三個創(chuàng)新性工作,其中第一、二兩點針對對人臉圖像的局部逼近與識別問題,第三點針對基因微陣列缺失數(shù)據(jù)的估計問題:摘要(1)探討基于小波包局部逼近的人臉識別算法,尤其是小波包字典中的特征選擇/提取問題。通過分析小波包系數(shù)的特點
4、以及扭曲的人臉曲面的頻譜特性,我們指出了經(jīng)典的局部判別基(10caldiscriminantbasis,LDB)算法以及絕對距離在小波包特征提取中的缺陷,并提出了一個觀點:要選擇最優(yōu)的判別特征,就應該不受各個坐標所在頻率子帶的限制,而是直接以各個坐標的判別力為準繩。然后,為了回答幾個問題:如何衡量各個坐標的判別力;如何保證各個坐標的挑選不受各子帶的影響;如何挑選最具判別力的坐標?我們分別提出了樣本空間可分性、伸縮不變熵的概念和基于最大logistic后驗概率的特征選擇模型。在實現(xiàn)局部判別坐標(10caldiscriminantcoordinates,LDC)
5、挑選的基礎(chǔ)上,我們提出了一個新的人臉識別算“DC人臉識別算法。此外,為了改進歐式距離和cosine相關(guān)性的不足,我們提出了三角平方比的相似性度量,它同時考慮了兩個向量之間的距離和相關(guān)性。(2)探討基于對偶樹復小波基逼近的人臉特征表示。我們提出了一個新的基于對偶樹復小波基逼近的人臉特征表示---complex-WT-face。它可以有效地表示人臉圖像的內(nèi)在幾何結(jié)構(gòu),且冗余性和維數(shù)都很低。同時我們通過實驗證明了:對偶樹復小波基在平移和光照變化下對人臉圖像的逼近能力要優(yōu)于離散小波基和Gabordx波基,并且只需要線性的計算復雜度,遠小于Gabord,波基。這為對偶
6、樹復小波基取代離散小波、Gabordx波在人臉識別領(lǐng)域的應用提供了可能。此外,我們注意到由于人臉圖像具有有限的支集,當小波的濾波器通過人臉圖像的邊界時,它產(chǎn)生的每個頻率子圖像的邊界像素值會產(chǎn)生突然的跳躍變化,即Gibs振蕩,所以我們提出了一個修剪的方法來抑制Gibs振蕩導致的許多虛假奇異點對正常奇異點檢測的影響。(3)提出了一個將局部加權(quán)逼近模型應用于基因微陣列缺失數(shù)據(jù)估計的理論框架,它以Taylor級數(shù)逼近為理論基礎(chǔ)。對于每個含缺失值的目標基因,該局部加權(quán)逼近模型可以自適應地產(chǎn)生它的候選基因集,并且通過權(quán)重函數(shù)分配各個候選基因?qū)θ笔е倒烙嫷挠绊懥?。我們證明
7、了該理論框架的平凡形式即是經(jīng)典[}勺KNNimpute算法,并在理論和實驗層面上,詳細地研究該理論框架的線性形式一局部加權(quán)線性逼近的數(shù)據(jù)估計算濠LWLAimpute)。為Ⅱ摘要了更好地研究LWLAimpute算法,我們提出了擬漸進性質(zhì)的概念,并通過實驗證明了基于一階黼LWLAimpute算法擁有很好的擬漸進性質(zhì),而基于零階逼近的KNNimpute算法并不擁有。該性質(zhì)使得LWLAimpute算法可以舍棄傳統(tǒng)局部填充方法必須使用的預選擇操作。因而對于每個含缺失值的目標基因,LWLAimpute算法可以充分利用它的所有候選基因在它周圍的分布信息去估計它的缺失值,不
8、會受到預選擇操作的影響而錯過一些有用的信息。所以LW