資源描述:
《前饋神經(jīng)網(wǎng)絡介紹.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、激活函數(shù)通常用于多層感知器的連續(xù)可導非線性激活函數(shù)的一個例子是Sigmoid非線性函數(shù);有兩種形式:1.logistic函數(shù).如下定義這里vj(n)是神經(jīng)元j的誘導局部域。根據(jù)這種非線性,輸出的范圍是0≤yj≤1。對方程(4.30)取微分,我們得到且yj(n)=(vj(n))。式(4.31)可以如下表示因為神經(jīng)元j位于輸出層,所以yj(n)=oj(n)。因此可以將神經(jīng)元j的局域梯度表示為這里的oj(n)是神經(jīng)元j輸出端的函數(shù)信號,而dj(n)是它的期望反應。對任意的一個隱層神經(jīng)元,局域梯度表示為
2、2.雙曲正切函數(shù),表示為這里a和b是常數(shù)。它對vj(n)的導數(shù)如下如果神經(jīng)元j位于輸出層,它的局域梯度是如果神經(jīng)元j位于隱層,則學習率我們使用的學習率參數(shù)η越小,網(wǎng)絡中一次迭代的突觸權(quán)值的變化量就越小,權(quán)空間的軌道就越光滑。另一方面,如果我們讓η的值太大以加快學習率的話,結(jié)果就有可能使網(wǎng)絡的突觸權(quán)值的變化量不穩(wěn)定。一個既要加快學習率又要保持穩(wěn)定的簡單模型要包括動量項,如下這里α是動量常數(shù),通常是正數(shù)。解這個關(guān)于Δwji(n)的方程我們得到:我們可知δj(n)等于因此我們將方程(4.40)重寫為在
3、這個關(guān)系的基礎上,做以下的觀察:1.校正值Δwji(n)代表指數(shù)加權(quán)的時間序列的和。欲使時間序列收斂,所以動量常數(shù)必須限制在這個范圍內(nèi):0≤︱α︱<1。當α等于0時,反向傳播算法沒有動量。雖然在實際中動量常數(shù)α不可能是負的,但它還是可正可負。2.當偏導數(shù)在連續(xù)迭代中有相同的代數(shù)符號,指數(shù)加權(quán)和Δwji(n)數(shù)量增加,所以,權(quán)值wji(n)被大幅度調(diào)整。3.當偏導數(shù)在連續(xù)迭代中有相反的代數(shù)符號,指數(shù)加權(quán)和Δwji(n)減少,所以,權(quán)值wji(n)調(diào)整不大。動量項對于使學習過程不停止在誤差曲面上一個
4、淺層的局限最小化也有益處。在導出反向傳播算法時假設學習率參數(shù)η是一個常數(shù)。然而,事實上它應該被定義為ηji;也就是說,學習率參數(shù)應該是基于連接權(quán)值的。在網(wǎng)絡的不同地方使用不同的學習率參數(shù)。在反向傳播算法的中假設了所有的突觸權(quán)值都是可調(diào)整的,或者在適應過程中我們限制網(wǎng)絡中某些權(quán)值保持固定。對于后者,誤差信號是以通常的方式通過網(wǎng)絡反向傳播的;固定的突觸權(quán)值可以通過使突觸權(quán)值的學習率參數(shù)ηji等于0來做到。訓練的串行和集中方式對于一個給定的訓練集,反向傳播學習可能會以下面兩種基本方式中的一種進行:1.
5、串行方式。正是目前反向傳播算法公式所引用的方式。2.集中方式。權(quán)值更新要在所有樣本出現(xiàn)后才進行。代價函數(shù)定義為:誤差ej(n)等于dj(n)和yj(n)的差,它們分別表示期望響應向量d(n)的第j個分量和網(wǎng)絡輸出的相應的值。對于學習率參數(shù)η,應用于從i連接到j的wji的校正值由delta法則定義:要計算偏導數(shù)根據(jù)式(4.43),在集中方式,權(quán)值的校正值Δwji(n)是在整個訓練集提交訓練以后才決定。從在線運行的觀點來看,訓練的串行方式比集中方式要好,1.需有更少的局部存儲。2.具有隨機性。這使得
6、達到局部最小可能性降低。同樣地,串行方式的隨機性質(zhì)使得要得到算法收斂的理論條件變得困難了。1.集中方式的使用為梯度向量提供了一個精確的估計;收斂到局部最小只要簡單的條件就可以保證。2.集中方式的組合比連續(xù)模式更容易保證并行??偟膩碚f,串行方式能夠如此流行(特別對解決模式分類問題)有兩個重要的原因:·算法的實施很簡單?!に鼮榇笮投щy的問題提供了有效的解決方法。停止準則通常,反向傳播算法不能證明收斂,并且沒有定義得很好的準則來停止它的運行。我們可以將反向傳播學習的一個合理的收斂準則公式化:1.當梯
7、度向量的歐幾里得模達到一個充分小的梯度閾值時,認為反向傳播算法已經(jīng)收斂。收斂準則的缺點是,學習時間可能會很長。這也需要梯度向量g(w)的計算。2.當整個樣本的均方誤差的變化的絕對速率足夠小時,認為反向傳播算法已經(jīng)收斂。3.一個有用的且有理論支持的收斂準則。在每一個學習迭代之后,都要檢查網(wǎng)絡的泛化性能。當泛化性能是適當?shù)?,或泛化性能有明顯的最大值時,學習過程被終止。4.4反向傳播算法的總結(jié)權(quán)值的串行更新的運行方式中,算法通過訓練樣本{(x(n),d(n))}Nn=1進行如下循環(huán):1.初始化.假設沒
8、有先驗知識可用,選擇一個均值等于0的均勻分布,它的標準差的平方使神經(jīng)元的誘導局部域的標準導數(shù)位于S型激活函數(shù)的線形部分與飽和部分轉(zhuǎn)折處,我們以這個分布隨機挑選突觸權(quán)值和閾值。2.訓練樣本的呈現(xiàn).在訓練集中每個樣本以某種形式順序呈現(xiàn)給網(wǎng)絡依次進行在下面的第三點和第四點中所描述的前向和后向計算.前向計算.設一個訓練樣本是(x(n),d(n)),有一個輸入向量x(n)指向輸入層的感知節(jié)點和一個期望響應向量=如果神經(jīng)元j是在第一隱層(=1),置yj(0)(n)=xj(n)如果神經(jīng)元j在輸出層,令yj(0