本文是对论文Bidirectional LSTM-CRF Models for Sequence Tagging的总结。文章系统地比较了基于LSTM网络的各种序列标记模型的性能。 并在当时首次将BI-LSTM-CRF模型应用于NLP基准序列标记任务。 其中,BI-LSTM-CRF模型在词性标注,分块和命名实体识别任务上表现最优。模型具有鲁棒性且对单词嵌入的依赖性较小,甚至可以无需借助词嵌入达到一定的精度。
Evaluation methods for unsupervised word embeddings
本文是对论文Evaluation methods for unsupervised word embeddings的总结。相较于大量生成词嵌入模型的研究,评估词嵌入模型的工作相对较少。 该论文是第一篇对词嵌入评估进行深入研究的论文,发表于2015年,涵盖了广泛的评估标准和当时流行的嵌入技术。其目的并非是证明某个词嵌入方法优于其他方法,而是要对词嵌入的评估方法本身做较深入的探讨。
WMD论文总结及代码实现: From Word Embeddings To Document Distances
本文是对论文From Word Embeddings To Document Distances的总结和code实现。该论文基于word2vec embedding 和EMD(Earth Mover's Distance)提出了一种新的计算文档距离的算法WMD(Word Mover's Distance)。旨在解决 Obama speaks to the media in Illinois 和 The President greets the press in Chicago 仅仅因词语拼写不同而导致距离很远的不合理现象。尽管这两个句子对应的词语在语义上是相近的。
XGBoost: A Scalable Tree Boosting System
本文是对XGBoost的经典论文XGBoost: A Scalable Tree Boosting System的总结。XGBoost 的全称是 eXtreme Gradient Boosting。作者为华盛顿大学研究机器学习的大牛陈天奇,其最大的特点在于,它能够自动利用 CPU 的多线程进行并行,同时在算法上加以改进提高了精度。
本文更多关注算法,主要内容如下:
Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.