Adline125's Blog

NLP Engineer, Google Developers Expert

0%

Bidirectional LSTM-CRF Models for Sequence Tagging

本文是对论文Bidirectional LSTM-CRF Models for Sequence Tagging的总结。文章系统地比较了基于LSTM网络的各种序列标记模型的性能。 并在当时首次将BI-LSTM-CRF模型应用于NLP基准序列标记任务。 其中,BI-LSTM-CRF模型在词性标注,分块和命名实体识别任务上表现最优。模型具有鲁棒性且对单词嵌入的依赖性较小,甚至可以无需借助词嵌入达到一定的精度。

本文的主要内容包括:

  • 基于LSTM的序列标模型
  • 模型训练
  • 数据和特征
  • 结论

基于LSTM的序列标模型


RNN模型:对每一个时刻 h(t)=f(Ux(t)+Wh(t1))(1)y(t)=g(Vh(t))(2)f(z)=11+ez(3)g(zm)=ezmkezk(4)

LSTM模型:对每一个时刻 it=σ(Wxixt+Whiht1+Wcict1+bi)(5)ft=σ(Wxfxt+Whfht1+Wcfct1+bf)(6)ct=ftct1+ittanh(Wxcxt+Whcht1+bc)(7)ot=σ(Wxoxt+Whoht1+Wcoct+bo)(8)ht=ottanh(ct)(9)

LSTM Networks

Bidirectional LSTM Networks

####CRF networks

LSTM-CRF network

BI-LSTM-CRF networks

模型训练


模型训练过程如下:

其中,batch_size = 100.

数据和特征


数据

文章通过三个任务来比较模型,三个任务对应的数据为:

  • POS tagging:Penn TreeBank (PTB)
  • chunking:CoNLL 2000
  • named entity tagging:CoNLL 2003

具体如下:

####特征

文章中使用的特征主要有三类:

  • Spelling features
  • Context features
  • Word embedding

其中,拼写特征和上下文特征是直接加在输出层的,如下图:

实验对比结果


结论


文章的主要贡献:

  • 系统对比了基于LSTM的各种模型在序列标注任务中的表现
  • 首次应用双向LSTM+CRF模型在NLP序列标注语料集上
  • 实验证明双向LSTM+CRF在序列标注任务上较其他模型表现最优

参考文献


Bidirectional LSTM-CRF Models for Sequence Tagging