九九视频免费在线,亚洲精品人人,人妻暴雨中被强制侵犯在线

引言

殘差網(wǎng)絡(luò)是深度學(xué)習(xí)中得一個重要概念。這篇文章將簡單介紹殘差網(wǎng)絡(luò)得思想，并結(jié)合文獻(xiàn)討論殘差網(wǎng)絡(luò)有效性得一些可能解釋。

感謝授權(quán)感謝自知乎，丨LinT

丨zhuanlan.zhihu/p/80226180

整理丨深度傳送門

1 動機: 深度神經(jīng)網(wǎng)絡(luò)得“兩朵烏云”

神經(jīng)網(wǎng)絡(luò)具有非常強得表達(dá)能力，并且免去了繁重得特征工程，在BP算法提出以及算力逐漸提升得背景下，逐漸受到了研究人員和開發(fā)者得青睞。

在展開文章前，首先以前饋神經(jīng)網(wǎng)絡(luò)

為例，定義一下神經(jīng)網(wǎng)絡(luò)。一個前饋神經(jīng)網(wǎng)絡(luò)，由若干層神經(jīng)元組成，為了方便討論，我們以非線性單元（若干層神經(jīng)元組成得函數(shù)單元）為單位討論神經(jīng)網(wǎng)絡(luò)，即神經(jīng)網(wǎng)絡(luò)由

個非線性單元堆疊而成（后面將每個單元稱為一層），令

，則神經(jīng)網(wǎng)絡(luò)第層(

)得凈輸入與輸出

得計算由下式給出：

其中，

是該層得內(nèi)部運算，依照網(wǎng)絡(luò)類型有所不同；

是第層得輸出激活函數(shù)。

一般認(rèn)為，經(jīng)過訓(xùn)練得深度神經(jīng)網(wǎng)絡(luò)能夠?qū)?shù)據(jù)特征逐層抽象，最終提取出完成任務(wù)所需要得特征/表示，最終使用一個簡單得分類器(或其他學(xué)習(xí)器)，就可以完成最終任務(wù)——因此深度學(xué)習(xí)也被叫做表示/特征學(xué)習(xí)。

在“層層抽象”得直覺下，很自然得想法就是，訓(xùn)練一個很深得前饋神經(jīng)網(wǎng)路，來完成任務(wù)。直觀上看，更深得神經(jīng)網(wǎng)絡(luò)，在非線性激活函數(shù)得加持下，擁有更大得假設(shè)空間，因此當(dāng)然“更有可能”包含了一個允許解。但是在實際使用時，訓(xùn)練又成了一個難題。除了過擬合問題以外，更深得神經(jīng)網(wǎng)絡(luò)會遇到如下兩個難題，我姑且按照物理史得比喻將其稱為深度神經(jīng)網(wǎng)絡(luò)得“兩朵烏云”：

1.1 梯度彌散/爆炸

現(xiàn)代神經(jīng)網(wǎng)絡(luò)一般是通過基于梯度得BP算法來優(yōu)化，對前饋神經(jīng)網(wǎng)絡(luò)而言，一般需要前向傳播輸入信號，然后反向傳播誤差并使用梯度方法更新參數(shù)。第層得某參數(shù)更新需要計算損失

對其得梯度，該梯度依賴于該層得誤差項，根據(jù)鏈?zhǔn)椒▌t，

又依賴于后一層得誤差項

：

假設(shè)網(wǎng)絡(luò)單元輸入輸出維度一致，定義，則有

當(dāng)

時，第層得誤差項較后一層減小，如果很多層得情況都是如此，就會導(dǎo)致反向傳播中，梯度逐漸消失，底層得參數(shù)不能有效更新，這也就是梯度彌散(或梯度消失)；當(dāng)

時，則會使得梯度以指數(shù)級速度增大，造成系統(tǒng)不穩(wěn)定，也就是梯度爆炸問題。

在很深層得網(wǎng)絡(luò)中，由于不能保證

得大小，也很容易出現(xiàn)梯度彌散/爆炸。這是兩朵烏云中得第壹朵。

1.2 網(wǎng)絡(luò)退化問題

在前面得討論中，梯度彌散/爆炸問題導(dǎo)致模型訓(xùn)練難以收斂，但是這個問題很大程度上已經(jīng)被標(biāo)準(zhǔn)初始化和中間層正規(guī)化方法有效控制了，這些方法使得深度神經(jīng)網(wǎng)絡(luò)可以收斂。深度神經(jīng)網(wǎng)絡(luò)面臨得另一朵烏云是網(wǎng)絡(luò)退化問題：

在神經(jīng)網(wǎng)絡(luò)可以收斂得前提下，隨著網(wǎng)絡(luò)深度增加，網(wǎng)絡(luò)得表現(xiàn)先是逐漸增加至飽和，然后迅速下降[1]。

需要注意，網(wǎng)絡(luò)退化問題不是過擬合導(dǎo)致得，即便在模型訓(xùn)練過程中，同樣得訓(xùn)練輪次下，退化得網(wǎng)絡(luò)也比稍淺層得網(wǎng)絡(luò)得訓(xùn)練錯誤更高，如下圖[1]所示。

模型退化：深層模型反而取得更低得訓(xùn)練和測試誤差

這一點并不符合常理：如果存在某個層得網(wǎng)絡(luò)是當(dāng)前允許得網(wǎng)絡(luò)，那么可以構(gòu)造一個更深得網(wǎng)絡(luò)，其最后幾層僅是該網(wǎng)絡(luò) 第層輸出得恒等映射(Identity Mapping)，就可以取得與一致得結(jié)果；也許還不是所謂“可靠些層數(shù)”，那么更深得網(wǎng)絡(luò)就可以取得更好得結(jié)果。總而言之，與淺層網(wǎng)絡(luò)相比，更深得網(wǎng)絡(luò)得表現(xiàn)不應(yīng)該更差。因此，一個合理得猜測就是，對神經(jīng)網(wǎng)絡(luò)來說，恒等映射并不容易擬合。

也許我們可以對網(wǎng)絡(luò)單元進(jìn)行一定得改造，來改善退化問題？這也就引出了殘差網(wǎng)絡(luò)得基本思路...

2 殘差網(wǎng)絡(luò)得形式化定義與實現(xiàn)

既然神經(jīng)網(wǎng)絡(luò)不容易擬合一個恒等映射，那么一種思路就是構(gòu)造天然得恒等映射。假設(shè)神經(jīng)網(wǎng)絡(luò)非線性單元得輸入和輸出維度一致，可以將神經(jīng)網(wǎng)絡(luò)單元內(nèi)要擬合得函數(shù) 拆分成兩個部分，即：

其中是殘差函數(shù)。在網(wǎng)絡(luò)高層，學(xué)習(xí)一個恒等映射

即等價于令殘差部分趨近于0，即

。

殘差單元可以以跳層連接得形式實現(xiàn)，即將單元得輸入直接與單元輸出加在一起，然后再激活。因此殘差網(wǎng)絡(luò)可以輕松地用主流得自動微分深度學(xué)習(xí)框架實現(xiàn)，直接使用BP算法更新參數(shù)[1]。

殘差單元：以跳層連接得形式實現(xiàn)。

實驗表明，殘差網(wǎng)絡(luò)很好地解決了深度神經(jīng)網(wǎng)絡(luò)得退化問題，并在ImageNet和CIFAR-10等圖像任務(wù)上取得了非常好得結(jié)果，同等層數(shù)得前提下殘差網(wǎng)絡(luò)也收斂得更快[1]。這使得前饋神經(jīng)網(wǎng)絡(luò)可以采用更深得設(shè)計。除此之外，去除個別神經(jīng)網(wǎng)絡(luò)層，殘差網(wǎng)絡(luò)得表現(xiàn)不會受到顯著影響[2]，這與傳統(tǒng)得前饋神經(jīng)網(wǎng)絡(luò)大相徑庭。

3 殘差網(wǎng)絡(luò)解決了什么，為什么有效？

殘差網(wǎng)絡(luò)在圖像領(lǐng)域已然成為了一種主流模型，雖然這種網(wǎng)絡(luò)范式得提出是為了解決網(wǎng)絡(luò)退化問題，但是關(guān)于其作用得機制，還是多有爭議。目前存在幾種可能得解釋，下面分別列舉2016年得兩篇文獻(xiàn)和2018年得一篇文獻(xiàn)中得內(nèi)容。

3.1 從前后向信息傳播得角度來看

何愷明等人從前后向信息傳播得角度給出了殘差網(wǎng)路得一種解釋[3]。考慮式(5) 這樣得殘差塊組成得前饋神經(jīng)網(wǎng)絡(luò)，為了討論簡便，暫且假設(shè)殘差塊不使用任何激活函數(shù)，即

考慮任意兩個層數(shù) ，遞歸地展開(5) (6)，

可以得到：

根據(jù)式，在前向傳播時，輸入信號可以從任意低層直接傳播到高層。由于包含了一個天然得恒等映射，一定程度上可以解決網(wǎng)絡(luò)退化問題。這樣，最終得損失對某低層輸出得梯度可以展開為：

或展開寫為

根據(jù)式，損失對某低層輸出得梯度，被分解為了兩項，前一項

表明，反向傳播時，錯誤信號可以不經(jīng)過任何中間權(quán)重矩陣變換直接傳播到低層，一定程度上可以緩解梯度彌散問題（即便中間層矩陣權(quán)重很小，梯度也基本不會消失）。

綜上，可以認(rèn)為殘差連接使得信息前后向傳播更加順暢。

* 加入了激活函數(shù)得情況得討論(實驗論證)請參見[3]。

3.2 集成學(xué)習(xí)得角度

Andreas Veit等人提出了一種不同得視角[2]。他們將殘差網(wǎng)絡(luò)展開，以一個三層得ResNet為例，將得到下面得樹形結(jié)構(gòu)：

殘差網(wǎng)絡(luò)得展開形式

使用圖來表示就是：

殘差網(wǎng)絡(luò)得展開形式

這樣，殘差網(wǎng)絡(luò)就可以被看作是一系列路徑集合組裝而成得一個集成模型，其中不同得路徑包含了不同得網(wǎng)絡(luò)層子集。Andreas Veit等人展開了幾組實驗（Lesion study），在測試時，刪去殘差網(wǎng)絡(luò)得部分網(wǎng)絡(luò)層（即丟棄一部分路徑）、或交換某些網(wǎng)絡(luò)模塊得順序（改變網(wǎng)絡(luò)得結(jié)構(gòu)，丟棄一部分路徑得同時引入新路徑）。實驗結(jié)果表明，網(wǎng)絡(luò)得表現(xiàn)與正確網(wǎng)絡(luò)路徑數(shù)平滑相關(guān)（在路徑變化時，網(wǎng)絡(luò)表現(xiàn)沒有劇烈變化），這表明殘差網(wǎng)絡(luò)展開后得路徑具有一定得獨立性和冗余性，使得殘差網(wǎng)絡(luò)表現(xiàn)得像一個集成模型（ensemble）。

還通過實驗表明，殘差網(wǎng)絡(luò)中主要在訓(xùn)練中貢獻(xiàn)了梯度得是那些相對較短得路徑，從這個意味上來說，殘差網(wǎng)絡(luò)并不是通過保留整個網(wǎng)絡(luò)深度上得梯度流動來抑制梯度彌散問題，一定程度上反駁了何愷明等[3]中得觀點。但是，我覺得這個實驗結(jié)果與何凱明等得結(jié)論并不矛盾，因為這些較短得梯度路徑正是由殘差結(jié)構(gòu)引入得。

* 可以類比集成學(xué)習(xí)得網(wǎng)絡(luò)架構(gòu)方法不僅有殘差網(wǎng)絡(luò)，Dropout機制也可以被認(rèn)為是隱式地訓(xùn)練了一個組合得模型。

3.3 梯度破碎問題

2018年得一篇論文，The Shattered Gradients Problem: If resnets are the answer, then what is the question?[4]，指出了一個新得觀點，盡管殘差網(wǎng)絡(luò)提出是為了解決梯度彌散和網(wǎng)絡(luò)退化得問題，它解決得實際上是梯度破碎問題(the shattering gradient problem):

在標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò)中，隨著深度增加，梯度逐漸呈現(xiàn)為白噪聲(white noise)。

通過可視化得小型實驗(構(gòu)建和訓(xùn)練一個神經(jīng)網(wǎng)絡(luò) )發(fā)現(xiàn)，在淺層神經(jīng)網(wǎng)絡(luò)中，梯度呈現(xiàn)為棕色噪聲(brown noise)，深層神經(jīng)網(wǎng)絡(luò)得梯度呈現(xiàn)為白噪聲。在標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò)中，隨著深度增加，神經(jīng)元梯度得相關(guān)性(corelation)按指數(shù)級減少 (

)；同時，梯度得空間結(jié)構(gòu)也隨著深度增加被逐漸消除。這也就是梯度破碎現(xiàn)象。

神經(jīng)網(wǎng)絡(luò)梯度及其協(xié)方差矩陣得可視化，可以看到標(biāo)準(zhǔn)得前饋網(wǎng)絡(luò)得梯度在較深時(b)與白噪聲(e)類似。

梯度破碎為什么是一個問題呢？這是因為許多優(yōu)化方法假設(shè)梯度在相鄰點上是相似得，破碎得梯度會大大減小這類優(yōu)化方法得有效性。另外，如果梯度表現(xiàn)得像白噪聲，那么某個神經(jīng)元對網(wǎng)絡(luò)輸出得影響將會很不穩(wěn)定。

相較標(biāo)準(zhǔn)前饋網(wǎng)絡(luò)，殘差網(wǎng)絡(luò)中梯度相關(guān)性減少得速度從指數(shù)級下降到亞線性級(sublinearly, )，深度殘差網(wǎng)絡(luò)中，神經(jīng)元梯度介于棕色噪聲與白噪聲之間(參見上圖中得c,d,e)；殘差連接可以極大地保留梯度得空間結(jié)構(gòu)。殘差結(jié)構(gòu)緩解了梯度破碎問題。

* 更細(xì)致得實驗與討論請參見[4]。

4 自然語言處理中得殘差結(jié)構(gòu)

與圖像領(lǐng)域不同得是，自然語言處理中得網(wǎng)絡(luò)往往“寬而淺”，在這些網(wǎng)絡(luò)中殘差結(jié)構(gòu)很難有用武之地。但是在谷歌提出了基于自注意力得Transformer架構(gòu)[5]，特別是BERT[6]出現(xiàn)以后，自然語言處理也擁有了“窄而深”得網(wǎng)絡(luò)結(jié)構(gòu)，因此當(dāng)然也可以充分利用殘差連接，來達(dá)到優(yōu)化網(wǎng)絡(luò)得目得。事實上，Transformer本身就包含了殘差連接，其中編碼器和解碼器中得每一個子模塊都包含了殘差連接，并使用了Layer Normalization。

Transformer架構(gòu)

可以預(yù)見得是，基于深度學(xué)習(xí)得自然語言處理得網(wǎng)絡(luò)結(jié)構(gòu)很可能朝著更“深”得方向發(fā)展，那么殘差結(jié)構(gòu)就是一個幾乎不可缺少得選項了。

5 總結(jié)與擴(kuò)展

殘差網(wǎng)絡(luò)真可謂是深度學(xué)習(xí)得一把利器，它得出現(xiàn)使得更深得網(wǎng)絡(luò)訓(xùn)練成為可能。類似殘差網(wǎng)絡(luò)得結(jié)構(gòu)還有Highway Network[7]，與殘差網(wǎng)絡(luò)得差別在于加入了門控機制（注意它和ResNet是同時期得工作），文獻(xiàn)[4]中也對Highway Network進(jìn)行了討論，值得一讀；現(xiàn)在廣泛使用得門控RNN，我認(rèn)為與Highway Network有異曲同工之妙，可以認(rèn)為是在時間維上引入了門控得殘差連接；在殘差網(wǎng)絡(luò)中使用得跳層連接，在自然語言處理中也有相當(dāng)多得應(yīng)用，比如Bengio得神經(jīng)語言模型[8]、文本匹配模型ESIM[9]等，區(qū)別在于這些工作中跳層連接僅僅將不同層次得特征拼接在一起（而不是相加），達(dá)到增加特征多樣性、加快訓(xùn)練得目得。

P.S. 原本希望在這篇文章里面展開講講更多得細(xì)節(jié)，但是個人水平有限，加上知乎得文章篇幅限制，只能大概展開到這種程度。感謝是筆者根據(jù)論文梳理得自己得理解，如果有謬誤請指出。

參考資料：

1. Deep Residual Learning for Image Recognition

2. Residual Networks Behave Like Ensembles of Relatively Shallow Networks

3. Identity Mappings in Deep Residual Networks

4. The Shattered Gradients Problem: If resnets are the answer, then what is the question?

5. Attention Is All You Need

6. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

7. Highway Networks

8. A Neural Probabilistic Language Model

9. Enhanced LSTM for Natural Language Inference

• 四川古藺縣外墻掛廣告妙筆出新意遂寧墻體廣告	• 合肥人事代理找邦芒有效降低企業(yè)用工成本新選
• 九州科技數(shù)據(jù)標(biāo)注介紹	• 探索九州科技數(shù)據(jù)標(biāo)注：超越簡單的標(biāo)簽與分類
• 緣分盡了_必有征兆_一個人讓你有這樣的感覺_請	• 高效監(jiān)測_峟思工程儀器儀表助力工程安全運行
• 全液晶儀表和10.1英寸中控屏幕采用了懸浮式的	• 儀表工試題——儀表電路為什么的識讀（中級工實
• 手持式光譜儀_貴金屬分析儀	• 《哈哈哈哈哈》第三季正在熱播_和五哈團(tuán)一起ge

狂野欧美性猛xxxx乱大交-狂野欧美性猛交xxxx-狂躁美女大bbbbbb视频u-捆绑a区-啦啦啦www播放日本观看-啦啦啦www在线观看免费视频

VIP

推廣服務(wù)

研究與解讀丨殘差網(wǎng)絡(luò)解決了什么_為什么有效？