您好、欢迎来到现金彩票网!
当前位置:天天好彩免费大全 > 体模型 >

一周论文 记忆网络及其变体模型

发布时间:2019-06-12 03:39 来源:未知 编辑:admin

  为解决长期记忆问题, 提出一类称为Memory Networks的模型框架, 基于该框架构造的模型可以拥有长期(大量)和易于读写的记忆。

  Memory Networks可以理解为一种构造模型的框架, 该类模型由如下五部分组成:

  1、记忆m: 模型记忆的表示,由一个记忆槽列表[m1-mi]组成,可被G,O组件读写

  3、组件G (generalization): 在模型获取新输入时更新记忆m,可以理解为记忆存储

  4、组件O (output feature map): 根据模型输入和记忆m输出对应于模型内部特征空间中特征表示,可以理解为读取记忆

  5、组件R(response): 将O组件输出的内部特征空间的表示转化为特定格式,比如文本。可以理解为把读取到抽象的记忆转化为具象的表示。

  文章提出了一个通用的解决长期记忆问题的算法框架, 框架中的每一个模块都可以变更成新的实现, 可以根据不同的应用场景进行适配。

  本文提出了一个可以端到端训练的Memory Networks,并且在训练阶段比原始的Memory Networks需要更少的监督信息。

  如图(a)所示,输入的序列可以通过不同的Embedding矩阵A和C分别被表示成Input和Output向量的集合。同样的,通过Embedding矩阵B,我们将Question表示成一个向量u,向量u和Input向量集合中的每个向量计算内积,然后通过softmax得到一个概率向量p(attention过程),概率向量p中的每一个概率值表示每个Output向量对应输出的权重大小。通过p和Output向量集合,对Output中的向量进行加权求和得到输出向量o,将输出向量o和问题向量u相加,再最后通过一个权值矩阵W和softmax来预测最终的label。

  多层的情况如图(b)所示,每层的输出向量oi和问题向量ui相加获得新的问题表示ui+1,然后重复上述单层的过程,直到最后一层通过softmax来预测label。

  本文在bAbi数据集、Penn Treebank以及Text8三个数据集上进行实验,均取得了较好的实验效果。

  本篇论文提出的模型是在Facebook提出的原始Memory networks基础上进行的改进。在Memory networks的框架下,将原来依赖于中间监督信息的非端到端Memory networks改进为端到端的Memory networks。基础模型之外,本文针对时序编码提出了一些有趣的trick,可作参考。

  然后我认为本文的写作有一些问题,比如我自始至终也没有找到e的下标究竟代表什么,我的理解是每一句话都被encode成一个e作为episodic memory,那么每次Update 其中一个e都要经过所有其他的e是为了更好的融合所有context sentences的信息吗?那么每一层的hidden states h究竟又是什么?上一层的hidden state如何更新到下一层?文章中似乎没有给出明确的公式,也没有在model figure中展示出来,似乎写作不够明确。既然e是有h穿过层层GRU得到,我会揣测下一层的h是上一层e的一个function。

  文中主要对比了一系列state-of-the-art的模型,每个用不同的方式对之前已经读过的文本进行编码,然后进行CBT评比。

  CBT简介:数据来自Project Gutenburg所创建的数据集,里面的内容都选自儿童书籍。每20句话产生一个问题,让不同的语言模型去进行预测,看谁预测的效果更好。

  实验最后在CNN QA的语料上进行测试,在新闻文章中识别命名实体,得到的准确率能到69.4%.

  本文提供了一种测试语言模型效果的测试方法,这对于语言模型的评判做出了贡献。在做实验过程中,作者还发现在单层记忆表示中文本被编码的数量对结果有很大的影响:存在一个范围,使得单个词信息和整个句子的信息都得以较好的保留。

  鉴于知识库有知识稀疏、形式受限等问题,本文提出了一种可以通过直接读取文档来解决QA问题的新方法Key-Value Memory Networks。

  将文档分割成多个句子,每个句子即作为Key也作为Value,该方法与MemN2N相同。

  以文档中每个实体词为中心开一个窗口,将整个窗口作为Key,中间的实体词作为Value。

  该方法与Window Level基本相同,区别之处在于中心实体词与窗口中的其他词采用不同的Embedding。

  很多情况下文章的题目可能包含答案,因此在上述提出的Window方法基础上,再添加如下Key-value对:Key为窗口,Value为文档对应的title。

  本文为了比较使用知识库、信息抽取和直接采用维基百科文档方法之间的效果,构建了新的语料WIKIMOVIES。实验结果表明,KV-MemNNs直接从文档读取信息比信息抽取方法的效果好,却仍比直接利用知识库的方法差不少。其中几种Key-Value方法中,“Window + Center Encoding”方法效果最好。此外,本文还在WikiQA上进行实验,验证了KV-MemNNs的效果。

  本篇论文提出了一个在新的Memory Networks变体Key-Value Memory Networks,旨在探索在QA过程中,如何消除采用知识库和自由文本(维基百科)之间的效果差距(gap),并为此构建了一个新的数据集WikiMovies。

  长程记忆(long-term memory)问题一直是深度学习中的一个难点,Attention机制就是解决这一问题的经典方法。本文介绍的几篇Memory Networks试图通过构建长期存储记忆组件来解决过去神经网络无法存储过长内容的问题。如何存储大量的外部信息以及如何利用这些外部信息推断是Memory Networks乃至很多NLP任务的难点。本期引入的这几篇论文中,Memory Networks提出了一个整体的框架,End-To-End Memory Networks使memory networks可以端到端的训练学习。Key-Value Memory Networks主要解决外部信息如何存储表示,而THE GOLDILOCKS PRINCIPLE这篇论文则在推理方面有所创新,直接利用attention的打分来预测答案。目前深度学习方法中,无论是存储更新长期记忆的方法还是结合长期记忆进行推理的方法都还很初级,仍需诸君努力前行。

  PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是NLP的各个方向。如果你也经常读paper,也喜欢分享知识,也喜欢和大家一起讨论和学习的话,请速速来加入我们吧。

http://loravertue.com/timoxing/316.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有