菜鸟读论文(1)——Hierarchical Attention Networks for Document Classification

415 阅读3分钟

菜鸟读论文(1)Hierarchical Attention Networks for Document Classification

文献标题

Hierarchical Attention Networks for Document Classification

期刊/会议

NAACL 2016( CCF-C )

作者

Zichao Yang, Diyi Yang等

时间

2016-06

研究问题

通过模拟文章层次结构对文本进行分类

主要贡献

1. 从文章的分层结构入手,提出了一种新的文本分类的层次结构模型,分别聚合词向量成句向量,再合成为文档级向量表示进行分类任务。 2. 很好的可视化了Attention机制对于文档中信息更为丰富部分的关注。

研究难点( Motivation )

1. 在文本分类的方法中,没有关注到怎样从文章的层次结构来进行特征提取,没有考虑词在不同上下文的重要性不同。 2. 怎样给不同句子中的相同词不同的重要性。

研究方法关键

1. 整体的分层架构,从词向量得到句向量再得到文章向量。 2. Attention层中Q, K, V的确定。 3. Attention关注的重要程度的可视化。

实验表现

1. 在不同规模、不同任务(文本分类、情感分类)下都达到SOTA(提升3%~4%)。 2. 应用了层次结构后,即使用平均的方式使权重都一样,效果提升也很明显。

所用数据集

1.Yelp'13、'14、'15 2.IMDB 3.Yahoo Answer

评估指标

Accuracy

启发点

1.对于文档分类,不是所有的词汇都与分类结果相关;相关的部分要参考词语间的上下文关系,而非仅仅是他们的独立表示。 2.使用两种级别的注意力机制(word和sentence级)来获取上下文信息以衡量单词和句子在不同上下文中的重要程度。 3.图画的很好,实验很全面,能展现Attention具体注意的是句子的哪一部分。

Tricks

1.min_count >= 5, 是为了把出现次数较少的词语丢弃不要,缩小词语的数量,加快训练的速度降低训练的复杂度。 UNK替换掉出现次数=5次的词是为了防止过拟合。 2. 每个batch的长度相同,batch间的长度不同,可以提升3倍训练速度。 3. 网格搜索( grid search ):手动给出参数,程序自动的把这些都运行一遍取最优,耗时久且易造成维度灾难,适用于三四个超参数的情况。 随机搜索( random search ):给出参数的范围,程序通过随机采样去搜索和优化。 4. 超参momentum的设置:即动量,对于一般的SGD:w = w - lr * dw,容易造成震荡,如果添加momentum的话则:v = mu * v - lr *dw, w = w + v, 即若这一次下降的方向与上一次相同,则会下降的更多,相反则下降得变少,在危险的边缘疯狂试探

问题与思考

1. 最大的价值在于所有序列类型的都可以这么分层处理。 2. 相反的,从小到大这样的思想会不会容易导致误差累积,特别是对一些反语,attention能否一样关注到这些词,并且给予相对应的权重呢?

高引用相关研究

1. A C-LSTM Neural Network for Text Classification( 2015, LSTM + CNN) 2. Document Modeling with Gated Recurrent Neural Network for Sentiment Classification( 2015, hierarchical structure, 提供yelp, IMDB数据集) 3. Character-level Convolutional Networks for Text Classification ( 2015, 实验丰富,结果可直接拿来对比 )

ea1ca746ea5dc8f5faa0dc4e1ab15b4_ZDJL7APkY7.jpg