本文是对论文Bidirectional LSTM-CRF Models for Sequence Tagging的总结。文章系统地比较了基于LSTM网络的各种序列标记模型的性能。 并在当时首次将BI-LSTM-CRF模型应用于NLP基准序列标记任务。 其中,BI-LSTM-CRF模型在词性标注,分块和命名实体识别任务上表现最优。模型具有鲁棒性且对单词嵌入的依赖性较小,甚至可以无需借助词嵌入达到一定的精度。
本文的主要内容包括:
- 基于LSTM的序列标模型
- 模型训练
- 数据和特征
- 结论
基于LSTM的序列标模型
RNN模型:对每一个时刻
LSTM模型:对每一个时刻
LSTM Networks
Bidirectional LSTM Networks
####CRF networks
LSTM-CRF network
BI-LSTM-CRF networks
模型训练
模型训练过程如下:
其中,batch_size = 100.
数据和特征
数据
文章通过三个任务来比较模型,三个任务对应的数据为:
- POS tagging:Penn TreeBank (PTB)
- chunking:CoNLL 2000
- named entity tagging:CoNLL 2003
具体如下:
####特征
文章中使用的特征主要有三类:
- Spelling features
- Context features
- Word embedding
其中,拼写特征和上下文特征是直接加在输出层的,如下图:
实验对比结果
结论
文章的主要贡献:
- 系统对比了基于LSTM的各种模型在序列标注任务中的表现
- 首次应用双向LSTM+CRF模型在NLP序列标注语料集上
- 实验证明双向LSTM+CRF在序列标注任务上较其他模型表现最优