資源描述:
《基于局部逼近的數(shù)據(jù)分析及其在人臉識(shí)別和基因微陣列缺失值估計(jì)中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、中山大學(xué)博士學(xué)位論文基于局部逼近的數(shù)據(jù)分析及其在人臉識(shí)別和基因微陣列缺失值估計(jì)中的應(yīng)用姓名:劉朝春申請(qǐng)學(xué)位級(jí)別:博士專業(yè):應(yīng)用數(shù)學(xué)指導(dǎo)教師:戴道清20090601摘要論文題目:專業(yè):博士生:指導(dǎo)教師:基于局部逼近的數(shù)據(jù)分析及其在人臉識(shí)別和基因微陣列缺失值估計(jì)中的應(yīng)用應(yīng)用數(shù)學(xué)劉朝春戴道清教授隨著信息技術(shù)的迅速發(fā)展,生物醫(yī)學(xué)、工程、商業(yè)、科學(xué)研究等各個(gè)領(lǐng)域積累了大量的數(shù)據(jù),并且數(shù)據(jù)積累的速度越來(lái)越快。數(shù)據(jù)積累的目的往往是希望從中挖掘出一些有用的信息,因此數(shù)據(jù)分析成為社會(huì)信息化必不可少的一個(gè)要素。通常數(shù)據(jù)分析主要有三個(gè)根本任務(wù):分類、回歸和聚類分析,它們都包含了兩
2、個(gè)核心要素:數(shù)據(jù)以及它們的分布函數(shù)。本文以這兩個(gè)要素為軸線將三個(gè)根本任務(wù)統(tǒng)一在逼近分析的框架內(nèi),即:對(duì)數(shù)據(jù)本身的逼近、對(duì)數(shù)據(jù)分布函數(shù)的逼近。由于很多數(shù)據(jù)的維數(shù)都較高,且含有噪音,因此不僅數(shù)據(jù)自身的內(nèi)部結(jié)構(gòu)復(fù)雜,它們的分布函數(shù)也是多呈非線性、非凸的復(fù)雜分布,對(duì)這些數(shù)據(jù)做全局逼近往往效果較差,或者復(fù)雜度很高。因此本文著重于研究基于局部逼近的數(shù)據(jù)分析,及其在人臉圖像分析與識(shí)別、基因微陣列缺失數(shù)據(jù)估計(jì)中的應(yīng)用。在對(duì)數(shù)據(jù)本身的局部逼近方面,本文主要探討基于小波基的人臉圖像特征逼近,及其在人臉識(shí)別中的應(yīng)用。人臉圖像由于受到光照、姿勢(shì)、表情、平移、遮擋物的外部影響,在空間
3、域上的結(jié)構(gòu)十分復(fù)雜。因此人臉識(shí)別的關(guān)鍵就在于如何有效地提取不受外部變化影響的人臉特征,目前這仍然是一個(gè)開(kāi)放性的問(wèn)題。在對(duì)數(shù)據(jù)分布函數(shù)的逼近方面,本文主要探討局部加權(quán)逼近的泛化模型,并將這個(gè)模型應(yīng)用于基因微陣列缺失數(shù)據(jù)的估計(jì)。這雖然是一個(gè)基因數(shù)據(jù)的預(yù)處理過(guò)程,但是卻直接影響到基因數(shù)據(jù)的后續(xù)分析,因此也是至關(guān)重要的。針對(duì)這些問(wèn)題,本文主要有如下的三個(gè)創(chuàng)新性工作,其中第一、二兩點(diǎn)針對(duì)對(duì)人臉圖像的局部逼近與識(shí)別問(wèn)題,第三點(diǎn)針對(duì)基因微陣列缺失數(shù)據(jù)的估計(jì)問(wèn)題:摘要(1)探討基于小波包局部逼近的人臉識(shí)別算法,尤其是小波包字典中的特征選擇/提取問(wèn)題。通過(guò)分析小波包系數(shù)的特點(diǎn)
4、以及扭曲的人臉曲面的頻譜特性,我們指出了經(jīng)典的局部判別基(10caldiscriminantbasis,LDB)算法以及絕對(duì)距離在小波包特征提取中的缺陷,并提出了一個(gè)觀點(diǎn):要選擇最優(yōu)的判別特征,就應(yīng)該不受各個(gè)坐標(biāo)所在頻率子帶的限制,而是直接以各個(gè)坐標(biāo)的判別力為準(zhǔn)繩。然后,為了回答幾個(gè)問(wèn)題:如何衡量各個(gè)坐標(biāo)的判別力;如何保證各個(gè)坐標(biāo)的挑選不受各子帶的影響;如何挑選最具判別力的坐標(biāo)?我們分別提出了樣本空間可分性、伸縮不變熵的概念和基于最大logistic后驗(yàn)概率的特征選擇模型。在實(shí)現(xiàn)局部判別坐標(biāo)(10caldiscriminantcoordinates,LDC)
5、挑選的基礎(chǔ)上,我們提出了一個(gè)新的人臉識(shí)別算“DC人臉識(shí)別算法。此外,為了改進(jìn)歐式距離和cosine相關(guān)性的不足,我們提出了三角平方比的相似性度量,它同時(shí)考慮了兩個(gè)向量之間的距離和相關(guān)性。(2)探討基于對(duì)偶樹(shù)復(fù)小波基逼近的人臉特征表示。我們提出了一個(gè)新的基于對(duì)偶樹(shù)復(fù)小波基逼近的人臉特征表示---complex-WT-face。它可以有效地表示人臉圖像的內(nèi)在幾何結(jié)構(gòu),且冗余性和維數(shù)都很低。同時(shí)我們通過(guò)實(shí)驗(yàn)證明了:對(duì)偶樹(shù)復(fù)小波基在平移和光照變化下對(duì)人臉圖像的逼近能力要優(yōu)于離散小波基和Gabordx波基,并且只需要線性的計(jì)算復(fù)雜度,遠(yuǎn)小于Gabord,波基。這為對(duì)偶
6、樹(shù)復(fù)小波基取代離散小波、Gabordx波在人臉識(shí)別領(lǐng)域的應(yīng)用提供了可能。此外,我們注意到由于人臉圖像具有有限的支集,當(dāng)小波的濾波器通過(guò)人臉圖像的邊界時(shí),它產(chǎn)生的每個(gè)頻率子圖像的邊界像素值會(huì)產(chǎn)生突然的跳躍變化,即Gibs振蕩,所以我們提出了一個(gè)修剪的方法來(lái)抑制Gibs振蕩導(dǎo)致的許多虛假奇異點(diǎn)對(duì)正常奇異點(diǎn)檢測(cè)的影響。(3)提出了一個(gè)將局部加權(quán)逼近模型應(yīng)用于基因微陣列缺失數(shù)據(jù)估計(jì)的理論框架,它以Taylor級(jí)數(shù)逼近為理論基礎(chǔ)。對(duì)于每個(gè)含缺失值的目標(biāo)基因,該局部加權(quán)逼近模型可以自適應(yīng)地產(chǎn)生它的候選基因集,并且通過(guò)權(quán)重函數(shù)分配各個(gè)候選基因?qū)θ笔е倒烙?jì)的影響力。我們證明
7、了該理論框架的平凡形式即是經(jīng)典[}勺KNNimpute算法,并在理論和實(shí)驗(yàn)層面上,詳細(xì)地研究該理論框架的線性形式一局部加權(quán)線性逼近的數(shù)據(jù)估計(jì)算濠LWLAimpute)。為Ⅱ摘要了更好地研究LWLAimpute算法,我們提出了擬漸進(jìn)性質(zhì)的概念,并通過(guò)實(shí)驗(yàn)證明了基于一階黼LWLAimpute算法擁有很好的擬漸進(jìn)性質(zhì),而基于零階逼近的KNNimpute算法并不擁有。該性質(zhì)使得LWLAimpute算法可以舍棄傳統(tǒng)局部填充方法必須使用的預(yù)選擇操作。因而對(duì)于每個(gè)含缺失值的目標(biāo)基因,LWLAimpute算法可以充分利用它的所有候選基因在它周圍的分布信息去估計(jì)它的缺失值,不
8、會(huì)受到預(yù)選擇操作的影響而錯(cuò)過(guò)一些有用的信息。所以LW