資源描述:
《SOM算法研究與應(yīng)用(論文資料)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、SOM算法研究與應(yīng)用1引言聚類分析在數(shù)據(jù)挖掘研究中占有重要的位置,聚類是一個(gè)將數(shù)據(jù)集劃分為若干類的過(guò)程,并使得同一個(gè)類內(nèi)的數(shù)據(jù)對(duì)彖具冇較高的相似度而不同類的數(shù)據(jù)對(duì)象Z間的區(qū)別較大。聚類分析屈丁一種無(wú)教師監(jiān)督的學(xué)習(xí)方法,其基本的指導(dǎo)思想是最大程度地實(shí)現(xiàn)類屮對(duì)象相似度最大類間對(duì)彖相似度最小。本文介紹了一種基于自組織映射網(wǎng)絡(luò)的數(shù)據(jù)聚類方法該方法。分別從其研究背景和算法以及算法的設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行說(shuō)明。腦科學(xué)的研究表明,人類大腦皮層屮的細(xì)胞群存在著廣泛地自組織現(xiàn)彖。處于不同區(qū)域的神經(jīng)元具有不同的功能,它們具冇不同特征的輸入信息模式,對(duì)不同感官輸入模式的輸入
2、信號(hào)具有敏感性,從而形成大腦屮各種不同的感知路徑。并且這種神經(jīng)元所具冇的特性不是完全來(lái)自生物遺傳,而是很大程度上依賴于后天的學(xué)習(xí)和訓(xùn)練。而本文所介紹的自組織特征映射網(wǎng)絡(luò)(SOM)就是根據(jù)這種理論而捉出的。R組織映射(Self-OrganizingFeatureMaps,SOM)網(wǎng)絡(luò)也稱為Kohonen網(wǎng)絡(luò),該模型是由芬蘭的赫爾辛基大學(xué)神經(jīng)網(wǎng)絡(luò)專家TeuvoKohonenT1981年捉出,現(xiàn)在已成為應(yīng)用最為廣泛的自組織神經(jīng)網(wǎng)絡(luò)方法。TeuvoKohonen認(rèn)為處丁?空間中不同區(qū)威的神經(jīng)元冇不同的分工,當(dāng)一個(gè)神經(jīng)網(wǎng)絡(luò)接受外界輸入模式時(shí),將會(huì)分為不同
3、的反應(yīng)區(qū)域,各區(qū)威對(duì)輸入模式具冇不同的響應(yīng)特征。這種網(wǎng)絡(luò)模擬大腦神經(jīng)系統(tǒng)自組織特征映射的功能。它是一種競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò),采用無(wú)監(jiān)督學(xué)習(xí)算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,此網(wǎng)絡(luò)廣泛地應(yīng)用于樣本分類、排序和樣本檢測(cè)等方而。2SOM算法SOM算法是由ToKohonen于1982年捉出來(lái)的一種基丁?競(jìng)爭(zhēng)學(xué)習(xí)的單層神經(jīng)網(wǎng)絡(luò)模型。它在對(duì)數(shù)據(jù)進(jìn)行矢量量化的同時(shí)還能實(shí)現(xiàn)對(duì)數(shù)據(jù)的非線性降維映射,該映射具冇拓?fù)浔3值膬?yōu)良特性,從而使SOM算法成為一種常用的聚類和可視化工具。在SOM算法屮,作為數(shù)據(jù)代表的神經(jīng)元被固定在一個(gè)低維常規(guī)網(wǎng)格上,采用鄰域?qū)W習(xí)方式最終可達(dá)到神經(jīng)元在該網(wǎng)格上的拓
4、撲有序。從網(wǎng)絡(luò)結(jié)構(gòu)上來(lái)說(shuō),SOM網(wǎng)絡(luò)最大的特點(diǎn)是神經(jīng)元被放置在一維、二維或者更高維的網(wǎng)格節(jié)點(diǎn)上。如圖1就是最普遍的自組織特征映射二維網(wǎng)格模型。iN圖1二維SOM網(wǎng)格模型SOM網(wǎng)絡(luò)的一個(gè)典型特性就是可以在一維或二維的處理單元陣列上,形成輸入信號(hào)的特征拓?fù)浞植迹虼薙OM網(wǎng)絡(luò)具有抽取輸入信號(hào)模式特征的能力。SOM網(wǎng)絡(luò)一般只包含有一維陣列和二維陣列,但也可以推廣到多維處理單元陣列屮去。下面只討論應(yīng)用較多的二維陣列。輸入層是一維的神經(jīng)元,具有N個(gè)節(jié)點(diǎn),競(jìng)爭(zhēng)層的神經(jīng)元處于二維平面網(wǎng)格節(jié)點(diǎn)上,構(gòu)成一個(gè)二維節(jié)點(diǎn)矩陣,共有M個(gè)節(jié)點(diǎn)。輸入層與競(jìng)爭(zhēng)層的神經(jīng)元Z間都
5、通過(guò)連接權(quán)值進(jìn)行連接,競(jìng)爭(zhēng)層臨近的節(jié)點(diǎn)Z間也存在著局部的互聯(lián)。SOM網(wǎng)絡(luò)屮具有兩種類型的權(quán)值,一種是神經(jīng)元對(duì)外部輸入的連接權(quán)值,另一種是神經(jīng)兀Z間的互連權(quán)值,它的大小控制著神經(jīng)元Z間相互作用的強(qiáng)弱。在SOM網(wǎng)絡(luò)屮,競(jìng)爭(zhēng)層又是輸出層。SOM網(wǎng)絡(luò)通過(guò)引入網(wǎng)格形成了自組織特征映射的輸出空間,并且在齊個(gè)神經(jīng)兀Z間建立了拓?fù)溥B接關(guān)系。神經(jīng)元Z間的聯(lián)系是由它們?cè)诰W(wǎng)格上的位置所決定的,這種聯(lián)系模擬了人腦屮的神經(jīng)元Z間的側(cè)抑制功能,成為網(wǎng)絡(luò)實(shí)現(xiàn)競(jìng)爭(zhēng)的基礎(chǔ)。3算法的設(shè)計(jì)層次型結(jié)構(gòu),具有競(jìng)爭(zhēng)層。典型結(jié)構(gòu):輸入層,競(jìng)爭(zhēng)層。如圖2所示。圖2層次型結(jié)構(gòu)SOM網(wǎng)絡(luò)的主要目
6、的是將任意維數(shù)的輸入轉(zhuǎn)換為一維或二維的離散映射,并且以拓?fù)溆行虻姆绞阶赃m應(yīng)實(shí)現(xiàn)這個(gè)過(guò)程。生物學(xué)基礎(chǔ)實(shí)驗(yàn)表明,外界信息對(duì)于神經(jīng)元的刺激并非是單一的,而是以某一細(xì)胞為中心的一個(gè)區(qū)域;并且刺激強(qiáng)度有強(qiáng)弱之分,大腦神經(jīng)的刺激趨勢(shì)和強(qiáng)度呈墨西哥草帽形狀;神經(jīng)元受刺激的強(qiáng)度以中心最人,隨著區(qū)域半徑的增人逐漸減弱;遠(yuǎn)離中心的神經(jīng)元相反會(huì)受到抑制作用。根據(jù)這個(gè)原理,當(dāng)某類模式輸入時(shí),輸出層某節(jié)點(diǎn)(神經(jīng)元)得到最人刺激而獲勝,獲勝者以及其周圍節(jié)點(diǎn)的權(quán)值會(huì)向著輸入模式向量的方向進(jìn)行修正。隨著輸入模式的變化,相應(yīng)獲勝神經(jīng)元也發(fā)生變化,網(wǎng)絡(luò)即通過(guò)自組織的方式在大量樣本
7、數(shù)據(jù)的訓(xùn)練下,使得輸出層特征圖能夠反映出輸入樣本數(shù)據(jù)的分布情況。SOM網(wǎng)絡(luò)采用的學(xué)習(xí)算法為無(wú)監(jiān)督聚類法,它能將任意模式的輸入在輸出層映射成為一維或二維離散圖形,并保持其拓?fù)浣Y(jié)構(gòu)不變。學(xué)習(xí)過(guò)程分為三個(gè)主要過(guò)程,分別是:(1)競(jìng)爭(zhēng):對(duì)每個(gè)輸入模式,網(wǎng)絡(luò)中的神經(jīng)元計(jì)算它們各自的判別函數(shù)的值。這個(gè)判別函數(shù)對(duì)神經(jīng)元之間的競(jìng)爭(zhēng)提供基礎(chǔ)。具有判別函數(shù)最大值的特定神經(jīng)元成為獲勝者。(2)合作:獲勝神經(jīng)元決定興奮神經(jīng)元的拓?fù)溧徲虻目臻g位置,從而提供相鄰神經(jīng)元合作的基礎(chǔ)。(3)權(quán)值調(diào)整:興奮神經(jīng)元通過(guò)對(duì)它們突觸權(quán)值的適當(dāng)調(diào)節(jié)以增加關(guān)于該輸入模式的判別函數(shù)值,從而使
8、得該神經(jīng)元對(duì)以后相似的輸入有一個(gè)增強(qiáng)的響應(yīng)。4算法的實(shí)現(xiàn)4.1分類與輸入模式的相似性分類是在類別知識(shí)等導(dǎo)師信號(hào)的指導(dǎo)下,將待識(shí)別的輸入模式分配到各自的