14. RNN 的优化算法

RNN 到 LSTM – ⻓短期记忆⽹络

RNN 是⼀种死板的逻辑,越晚的输⼊影响越⼤,越早的输⼊影响越⼩,且⽆法改变这个逻辑。

LSTM 做的最⼤的改变就是打破了这个死板的逻辑,⽽改⽤了⼀套灵活了逻辑——只保留重要的信息

简单说就是:抓重点!

举个例⼦,我们先快速的阅读下⾯这段话:

当我们快速阅读完之后,可能只会记住下⾯⼏个重点:

LSTM 类似上⾯的划重点,他可以保留较⻓序列数据中的「重要信息」,忽略不重要的信息。这样就解决了 RNN 短期记忆的问题。

从 LSTM 到 GRU

Gated Recurrent Unit – GRU 是 LSTM 的⼀个变体。他保留了 LSTM 划重点,遗忘不重要信息的特点,在long-term 传播的时候也不会被丢失。

GRU 主要是在 LSTM 的模型上做了⼀些简化和调整,在训练数据集⽐较⼤的情况下可以节省很多时间。