資源描述:
《som算法研究與應(yīng)用》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、SOM算法研究與應(yīng)用1引言聚類分析在數(shù)據(jù)挖掘研究中占有重要的位置,聚類是一個將數(shù)據(jù)集劃分為若干類的過程,并使得同一個類內(nèi)的數(shù)據(jù)對象具有較高的相似度而不同類的數(shù)據(jù)對象之間的區(qū)別較大。聚類分析屬于一種無教師監(jiān)督的學(xué)習(xí)方法,其基本的指導(dǎo)思想是最大程度地實(shí)現(xiàn)類中對象相似度最大類間對象相似度最小。本文介紹了一種基于自組織映射網(wǎng)絡(luò)的數(shù)據(jù)聚類方法該方法。分別從其研究背景和算法以及算法的設(shè)計與實(shí)現(xiàn)進(jìn)行說明。腦科學(xué)的研究表明,人類大腦皮層中的細(xì)胞群存在著廣泛地自組織現(xiàn)象。處于不同區(qū)域的神經(jīng)元具有不同的功能,它們具
2、有不同特征的輸入信息模式,對不同感官輸入模式的輸入信號具有敏感性,從而形成大腦中各種不同的感知路徑。并且這種神經(jīng)元所具有的特性不是完全來自生物遺傳,而是很大程度上依賴于后天的學(xué)習(xí)和訓(xùn)練。而本文所介紹的自組織特征映射網(wǎng)絡(luò)(SOM)就是根據(jù)這種理論而提出的。自組織映射(Self-OrganizingFeatureMaps,SOM)網(wǎng)絡(luò)也稱為Kohonen網(wǎng)絡(luò),該模型是由芬蘭的赫爾辛基大學(xué)神經(jīng)網(wǎng)絡(luò)專家TeuvoKohonen于1981年提出,現(xiàn)在已成為應(yīng)用最為廣泛的自組織神經(jīng)網(wǎng)絡(luò)方法。TeuvoKoh
3、onen認(rèn)為處于空間中不同區(qū)域的神經(jīng)元有不同的分工,當(dāng)一個神經(jīng)網(wǎng)絡(luò)接受外界輸入模式時,將會分為不同的反應(yīng)區(qū)域,各區(qū)域?qū)斎肽J骄哂胁煌捻憫?yīng)特征。這種網(wǎng)絡(luò)模擬大腦神經(jīng)系統(tǒng)自組織特征映射的功能。它是一種競爭型神經(jīng)網(wǎng)絡(luò),采用無監(jiān)督學(xué)習(xí)算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,此網(wǎng)絡(luò)廣泛地應(yīng)用于樣本分類、排序和樣本檢測等方面。2SOM算法SOM算法是由T。Kohonen于1982年提出來的一種基于競爭學(xué)習(xí)的單層神經(jīng)網(wǎng)絡(luò)模型。它在對數(shù)據(jù)進(jìn)行矢量量化的同時還能實(shí)現(xiàn)對數(shù)據(jù)的非線性降維映射,該映射具有拓?fù)浔3值膬?yōu)良特性,從而使SOM
4、算法成為一種常用的聚類和可視化工具。在SOM算法中,作為數(shù)據(jù)代表的神經(jīng)元被固定在一個低維常規(guī)網(wǎng)格上,采用鄰域?qū)W習(xí)方式最終可達(dá)到神經(jīng)元在該網(wǎng)格上的拓?fù)溆行?。從網(wǎng)絡(luò)結(jié)構(gòu)上來說,SOM網(wǎng)絡(luò)最大的特點(diǎn)是神經(jīng)元被放置在一維、二維或者更高維的網(wǎng)格節(jié)點(diǎn)上。如圖1就是最普遍的自組織特征映射二維網(wǎng)格模型。圖1二維SOM網(wǎng)格模型SOM網(wǎng)絡(luò)的一個典型特性就是可以在一維或二維的處理單元陣列上,形成輸入信號的特征拓?fù)浞植?,因此SOM網(wǎng)絡(luò)具有抽取輸入信號模式特征的能力。SOM網(wǎng)絡(luò)一般只包含有一維陣列和二維陣列,但也可以推廣
5、到多維處理單元陣列中去。下面只討論應(yīng)用較多的二維陣列。輸入層是一維的神經(jīng)元,具有N個節(jié)點(diǎn),競爭層的神經(jīng)元處于二維平面網(wǎng)格節(jié)點(diǎn)上,構(gòu)成一個二維節(jié)點(diǎn)矩陣,共有M個節(jié)點(diǎn)。輸入層與競爭層的神經(jīng)元之間都通過連接權(quán)值進(jìn)行連接,競爭層臨近的節(jié)點(diǎn)之間也存在著局部的互聯(lián)。SOM網(wǎng)絡(luò)中具有兩種類型的權(quán)值,一種是神經(jīng)元對外部輸入的連接權(quán)值,另一種是神經(jīng)元之間的互連權(quán)值,它的大小控制著神經(jīng)元之間相互作用的強(qiáng)弱。在SOM網(wǎng)絡(luò)中,競爭層又是輸出層。SOM網(wǎng)絡(luò)通過引入網(wǎng)格形成了自組織特征映射的輸出空間,并且在各個神經(jīng)元之間建
6、立了拓?fù)溥B接關(guān)系。神經(jīng)元之間的聯(lián)系是由它們在網(wǎng)格上的位置所決定的,這種聯(lián)系模擬了人腦中的神經(jīng)元之間的側(cè)抑制功能,成為網(wǎng)絡(luò)實(shí)現(xiàn)競爭的基礎(chǔ)。3算法的設(shè)計層次型結(jié)構(gòu),具有競爭層。典型結(jié)構(gòu):輸入層,競爭層。如圖2所示。圖2層次型結(jié)構(gòu)SOM網(wǎng)絡(luò)的主要目的是將任意維數(shù)的輸入轉(zhuǎn)換為一維或二維的離散映射,并且以拓?fù)溆行虻姆绞阶赃m應(yīng)實(shí)現(xiàn)這個過程。生物學(xué)基礎(chǔ)實(shí)驗表明,外界信息對于神經(jīng)元的刺激并非是單一的,而是以某一細(xì)胞為中心的一個區(qū)域;并且刺激強(qiáng)度有強(qiáng)弱之分,大腦神經(jīng)的刺激趨勢和強(qiáng)度呈墨西哥草帽形狀;神經(jīng)元受刺激的
7、強(qiáng)度以中心最大,隨著區(qū)域半徑的增大逐漸減弱;遠(yuǎn)離中心的神經(jīng)元相反會受到抑制作用。根據(jù)這個原理,當(dāng)某類模式輸入時,輸出層某節(jié)點(diǎn)(神經(jīng)元)得到最大刺激而獲勝,獲勝者以及其周圍節(jié)點(diǎn)的權(quán)值會向著輸入模式向量的方向進(jìn)行修正。隨著輸入模式的變化,相應(yīng)獲勝神經(jīng)元也發(fā)生變化,網(wǎng)絡(luò)即通過自組織的方式在大量樣本數(shù)據(jù)的訓(xùn)練下,使得輸出層特征圖能夠反映出輸入樣本數(shù)據(jù)的分布情況。SOM網(wǎng)絡(luò)采用的學(xué)習(xí)算法為無監(jiān)督聚類法,它能將任意模式的輸入在輸出層映射成為一維或二維離散圖形,并保持其拓?fù)浣Y(jié)構(gòu)不變。學(xué)習(xí)過程分為三個主要過程,
8、分別是:(1)競爭:對每個輸入模式,網(wǎng)絡(luò)中的神經(jīng)元計算它們各自的判別函數(shù)的值。這個判別函數(shù)對神經(jīng)元之間的競爭提供基礎(chǔ)。具有判別函數(shù)最大值的特定神經(jīng)元成為獲勝者。(2)合作:獲勝神經(jīng)元決定興奮神經(jīng)元的拓?fù)溧徲虻目臻g位置,從而提供相鄰神經(jīng)元合作的基礎(chǔ)。(3)權(quán)值調(diào)整:興奮神經(jīng)元通過對它們突觸權(quán)值的適當(dāng)調(diào)節(jié)以增加關(guān)于該輸入模式的判別函數(shù)值,從而使得該神經(jīng)元對以后相似的輸入有一個增強(qiáng)的響應(yīng)。4算法的實(shí)現(xiàn)4.1分類與輸入模式的相似性分類是在類別知識等導(dǎo)師信號的指導(dǎo)下,將待識別的輸入模式分配到各自的模式類中