Bidirectional LSTM-CRF Models for Sequence Tagging

本文是对论文Bidirectional LSTM-CRF Models for Sequence Tagging的总结。文章系统地比较了基于LSTM网络的各种序列标记模型的性能。并在当时首次将BI-LSTM-CRF模型应用于NLP基准序列标记任务。其中，BI-LSTM-CRF模型在词性标注，分块和命名实体识别任务上表现最优。模型具有鲁棒性且对单词嵌入的依赖性较小，甚至可以无需借助词嵌入达到一定的精度。

本文的主要内容包括：

基于LSTM的序列标模型
模型训练
数据和特征
结论

基于LSTM的序列标模型

RNN模型：对每一个时刻 \[ \begin{split} { h ( t ) = f ( U x ( t ) + W h ( t - 1 ) ) }\quad\quad\quad(1)\\ { y ( t ) = g ( V h ( t ) ) }\quad\quad\quad\quad\quad\quad\quad\quad\quad(2) \\ f ( z ) = \frac { 1 } { 1 + e ^ { - z } }\quad\quad\quad\quad\quad\quad\quad\quad\quad(3)\\ g ( z _ { m } ) = \frac { e ^ { z _ { m } } } { \sum _ { k } e ^ { z _ { k } } }\quad\quad\quad\quad\quad\quad\quad\quad\quad(4) \end{split} \\ \]

LSTM模型：对每一个时刻 \[ \begin{split} { i _ { t } = \sigma ( W _ { x i } x _ { t } + W _ { h i } h _ { t - 1 } + W _ { c i } c _ { t - 1 } + b _ { i } ) }\quad\quad\quad(5)\\ { f _ { t } = \sigma ( W _ { x f } x _ { t } + W _ { h f } h _ { t - 1 } + W _ { c f } c _ { t - 1 } + b _ { f } ) }\quad\quad(6)\\ { c _ { t } = f _ { t } c _ { t - 1 } + i _ { t } \tanh ( W _ { x c } x _ { t } + W _ { h c } h _ { t - 1 } + b _ { c } ) }\quad(7)\\ {o _ { t } = \sigma ( W _ { x o } x _ { t } + W _ { h o } h _ { t - 1 } + W _ { c o } c _ { t } + b _ { o } ) } \quad\quad\quad(8) \\ h _ { t } = o _ { t } \tanh ( c _ { t } )\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad(9) \end{split} \\ \]