《Aspect Level Sentiment Classification with Deep Memory Network》阅读笔记

转载请注明出处：西土城的搬砖日常
原文链接：Aspect Level Sentiment Classification with Deep Memory Network

来源：EMNLP2016
问题：aspect level 情感分析

一、关于aspect level的情感分析

给定一个句子和句子中出现的某个aspect，aspect-level 情感分析的目标是分析出这个句子在给定aspect上的情感倾向。

例如：great food but the service was dreadful! 在aspect “food”上，情感倾向为正，在aspect “service”上情感倾向为负。Aspect level的情感分析相对于document level来说粒度更细。

aspect level情感分析相关工作

1：aspect level情感分析的系统介绍；

2、3：传统分类器方法实现aspect level的情感分析；

4、5、6、7：神经网络方法实现aspect level的情感分析。

分类器方法

将情感分析作为一个文本分类问题，用机器学习的方法训练文本分类器。分类器的性能极大依赖于文本特征、情感词典等信息。目前效果比较好的是SVM。

神经网络方法

利用神经网络学习低维文本特征，获取文本的语义表示。

神经网络模型的问题

传统的神经网络模型能够捕捉背景信息，但是不能明确的区分对某个aspect的更重要的上下文信息。LSTM通过sequence的方式对所有的context word执行同样的操作，因此不能明确反映出每个context word的重要性。而对于aspect-level的情感分析来说，只有一部分上下文信息对于判定某个特定的aspect的情感倾向是比较重要的。

例子：great food but the service was dreadful!

在这个句子里，对于“food”这个aspect来说，要判断它的情感倾向，“great”是一个重要的线索，“dreadful”基本没什么用。同样的对于“service”这个aspect来说，“dreadful”比较重要，“great”就没有什么作用了。

解决这个问题的方法

捕捉不同的context word对于特定aspect的重要性，利用这个信息做句子的语义表示。作者的想法来自于memory network。

二、关于memory network

memory network是Jason Weston在14年提出来的想法，Sainbayar Sukhbaatar在15年提出了让memory network进行end to end的训练方法，并在QA上取得了较好的效果。

关于memory network的相关内容可参考下面两篇论文：

[Weston et al.2014] MEMORY NETWORKS
[Sukhbaatar et al.2015] End-To-End Memory Networks

memory network的总体说明

按照我的理解，memory network就是有一个可以读写的外部memory，模型可以根据memory的内容来确定输出的符号。memory里面存储需要的信息，比如上下文的语义信息，这样可以解决长期大量的记忆问题。

结构

Memory network包括：一个memory m，四个component I,G,O,R

m：一组vector
I：把输入转化成feature representation
G：根据新的输入更新memory
O：根据当前memory和输入得到output representation
R：根据output representation得到模型输出

以QA为例说明memory network

输入：一系列sentence:\left\{ s_{1} ,s_{2},... s_{i},... s_{n} \right\}，和question q
task：根据这些sentence得到q的答案

I每次读一个sentence s_{i} ，encode得到vector representation；
G根据当前的sentence representation更新memory；
所有sentence都处理完得到完整的memory m，存储这些sentence的语义信息；
Encode question q得到e_{q} ；
O根据e_{q} 从memory m选择related evidence得到一个输出向量o；
R根据o得到最终的输出。

三、本文模型

给定句子s=\left\{ w_{1} ,w_{2} ,...,w_{i} ,...,w_{n} \right\} 和aspect word w_{i}

1、map each word into its embedding vector

这些word vectors包括context vectors和aspect vectors。

aspect vectors:

如果aspect word是单个词，aspect vectors就是aspect word的word embedding；如果aspect word是多个词组成的，aspect vectors就是几个词的embedding的平均值。

context word vectors:

即sentence中除了aspect word之外的所有词的word embedding堆叠到一起，这就是模型中的memory。

2、computational layer

模型包括多个computational layers,每个computational layer包括一个attention layer和一个linear layer。
第一个computational layer，attention layer的输入是aspect vector，输出memory中的比较重要的部分，linear layer的输入是aspect vector。第一个computational layer的attention layer和linear layer的输出结果求和作为下一个computational layer的输入;
其它computational layer执行同样的操作，上一层的输出作为输入，通过attention机制获取memory中较重要的信息，与线性层得到的结果求和作为下一层的输入。
最后一层的输出作为结合aspect信息的sentence representation，作为aspect-level情感分类的特征，送到softmax。

3、Attention

包括content attention和location attention两部分。

content attention

一方面，不同context word对于句子的语义表示贡献不一样；另一方面，不同的context word对于特定aspect的情感倾向的重要性也是不一样的。于是就有了content attention。

输入：external memory m 和 aspect vector vaspect

输出：vec