版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-神經(jīng)激活函數(shù)

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

激活函數(shù)的作用是給神經(jīng)網(wǎng)絡(luò)加入一些非線性因素,由于線性模型的表達能力不夠,故激活函數(shù)的加入可以使得神經(jīng)網(wǎng)絡(luò)更好地解決較為復(fù)雜的問題。

背景首先是第一個問題:為什么要使用激活函數(shù)以及它的作用是什么?使用激活函數(shù)的原因在于,以兩類數(shù)據(jù)的分類為例,這些數(shù)據(jù)真正能線性可分的情況還是比較少的,此時如果數(shù)據(jù)不是線性可分的我們又該如何分類呢?這個時候我們就無法再簡單利用一條直線來對數(shù)據(jù)進行很好的劃分,這時我們需要加入非線性的因素來對數(shù)據(jù)進行分類。

激活函數(shù)的性質(zhì)1、非線性:當(dāng)激活函數(shù)是線性的時候,一個兩層的神經(jīng)網(wǎng)絡(luò)就可以逼近基本上所有的函數(shù)了。但是,如果激活函數(shù)是恒等激活函數(shù)的時候(即),就不滿足這個性質(zhì)了,而且如果MLP使用的是恒等激活函數(shù),那么其實整個網(wǎng)絡(luò)跟單層神經(jīng)網(wǎng)絡(luò)是等價的。

2、可微性:當(dāng)優(yōu)化方法是基于梯度的時候,這個性質(zhì)是必須的。

3、單調(diào)性:當(dāng)激活函數(shù)是單調(diào)的時候,單層網(wǎng)絡(luò)能夠保證是凸函數(shù)。

4、 當(dāng)激活函數(shù)滿足這個性質(zhì)的時候,如果參數(shù)的初始化是random的很小的值,那么神經(jīng)網(wǎng)絡(luò)的訓(xùn)練將會很高效;如果不滿足這個性質(zhì),那么就需要很用心的去設(shè)置初始值。

4、輸出值的范圍:當(dāng)激活函數(shù)輸出值是有限的時候,基于梯度的優(yōu)化方法會更加穩(wěn)定,因為特征的表示受有限權(quán)值的影響更顯著;當(dāng)激活函數(shù)的輸出是無限的時候,模型的訓(xùn)練會更加高效,不過在這種情況小,一般需要更小的learning rate。1

作用神經(jīng)網(wǎng)絡(luò)中激活函數(shù)的主要作用是提供網(wǎng)絡(luò)的非線性建模能力,如不特別說明,激活函數(shù)一般而言是非線性函數(shù)。假設(shè)一個示例神經(jīng)網(wǎng)絡(luò)中僅包含線性卷積和全連接運算,那么該網(wǎng)絡(luò)僅能夠表達線性映射,即便增加網(wǎng)絡(luò)的深度也依舊還是線性映射,難以有效建模實際環(huán)境中非線性分布的數(shù)據(jù)。加入(非線性)激活函數(shù)之后,深度神經(jīng)網(wǎng)絡(luò)才具備了分層的非線性映射學(xué)習(xí)能力。2

本詞條內(nèi)容貢獻者為:

李曉林 - 教授 - 西南大學(xué)