我的位置:

金准数据 DeepMind AI 关系推理超越人类:深度神经网络模块即插即用

发布人:管理员

研究一:视觉互动网络 VIN,从原始视觉观察中学习真实物理机制的通用模型

首先看《视觉互动网络》(Visual Interaction Networks)。

DeepMind 官方博客中称,理解关系推理的一大关键因素是,预测未来一个真实场景中发生了什么。

只看一眼,人类不仅能够推断出物体接下来几秒钟、几分钟乃至更长时间所处的位置,还能够预测接下来发生了什么。


例如,对着墙踢一个球,大脑能够预测到球碰到墙以及接下来球和墙两者的走向:球会根据入射角度、速度反弹,而墙应该还会在那里不动。

这些预测虽然简单,但都是由一套复杂的认知系统所引导的。


由此,DeepMind 的相关研究人员开发了“视觉互动网络”(Visual Interaction Network,VIN),能够简单模拟大脑的推断系统。

VIN 能够根据几帧连续的视频,推断(infer)上面多个物体接下来所处的位置。

这与生成模型不同,生成模型生成的结果是从视觉上“想象”出来的,而 VIN 则是根据物体彼此之间的基本关系演化推断出的。

左边是真实结果(ground-truth),右边是 VIN 的预测。在连续大约 150 帧的视频中,VIN 给出了极为接近的模拟,这之后的预测结果从肉眼看来也算是合理的。

VIN 由两大机制组成:一个视觉模块和一个现实推理模块(physical reasoning module)。结合在一起,VIN 的两大模块能够处理一段视觉场景,并且预测其中每个不同物体在现实物理规律下会发生的情况。


DeepMind 研究人员在各种不同的环境中测试了 VIN,包括弹跳台球、有弹簧连接的质体,以及行星引力系统。结果表明,VIN 可以准确预测物体在未来几百步(hundreds of steps)会发生的情况。


  • 论文:视觉互动网络

DeepMind AI 关系推理超越人类:深度神经网络模块即插即用

作者在摘要中写道,只需一眼,人类便能对一系列不同的物理系统的未来状态做出各种各样的预测。另一方面,来自工程、机器人和图形学的现代方法通常局限于狭窄的领域,需要直接测量底层状态(underlying state)。


我们提出了视觉互动网络(Visual Interaction Network,VIN),一个用于从原始视觉观察中学习物理系统动态机制的通用模型

DeepMind AI 关系推理超越人类:深度神经网络模块即插即用

VIN 由基于卷积神经网络的感知前端(a,见上)和基于交互网络的动态预测器(b,见下)组成。通过联合训练,感知前端学会了将动态视觉场景解析为一组特殊的物体表征。动态预测器则通过计算物体之间的相互作用和力学关系,学习将这些状态向前推进,从而产生任意长度的预测物理轨迹。


DeepMind AI 关系推理超越人类:深度神经网络模块即插即用

作者发现,在只有 6 帧输入视频的情况下,VIN 可以生成各种物理系统中几百个时间步长的预测轨迹,而且这些轨迹都是准确的。

VIN 也可以应用于物体不可见的场景当中,从而根据可见物体预测不可见物体的未来状态,由此隐含地推断未知物体的质量。研究结果表明,感知模块和基于物体动态机制的预测模块引入的物体表征能够进行精确的动态预测。这项工作为复杂物理环境中,根据原始感官观察的输入,进行基于模型的决策和规划开辟了新的机会。


DeepMind AI 关系推理超越人类:深度神经网络模块即插即用

VIN 的架构示意图


研究二:模块化、具有关系推理能力的深度神经网络架构 RN

再来看《用于关系推理的简单神经网络模块》。

DeepMind AI 关系推理超越人类:深度神经网络模块即插即用

作者的摘要中写道,关系推理(Relational Resoning)是通用智能行为的核心组成部分,但此前研究证明难神经网络很难学习做关系推理。在本文中,我们描述了如何使用关系网络(Relation Network,RN)作为简单的即插即用模块,从根本上解决依赖于关系推理的问题。

我们在 3 个任务中测试了 RN 增强的网络:

  1. 使用 CLEVR 这一具有挑战的数据集回答视觉问题,实现了当前最好的结果,而且超越人类水平;

  2. 使用 bAbI 任务进行基于文本的问答;

  3. 关于动态物理系统的复杂推理。


然后,我们专门整理了一个类似 CLEVR 的数据集 Sort-of-CLEVR,并在这一数据集上展示了卷积神经网络不具备解决关系问题的通用(general)能力,但在使用 RN 增强以后,就能获得关系推理的能力。

我们的工作表明了,配备 RN 模块的深度学习架构能以怎样的方式隐含地(implicitly)发现并且学习去推理实体及其关系。

3 种不同标准测试,CLEVR 数据集关系推理能力超越人类


任务一:Sort-of-CLEVR 数据集

为了探索我们的假设,RN 架构比更标准的神经网络架构更擅于进行一般的(general)关系推理,我们构建了一个类似于 CLEVR 的数据集,称之为“Sort-of-CLEVR”。

Oort-of-CLEVR 数据集的主要特点是区分了相关和不相关的问题。该数据集由 2D 彩色图像及与图像有关的问题和答案组成。每个图像共有 6 个物体,其中每个物体都是随机选择的形状(正方形或圆形)。作者使用 6 种颜色(红、蓝、绿、橙、黄、灰)标识每个物体。

为了避免进行复杂的自然语言处理,问题是手工编码决定的。此外,在图像方面,数据集也做了简化处理,降低了图像处理中涉及的复杂问题。


每个图像都有 10 个关系问题和 10 个非关系问题。例如,关系问题有“与灰色物体最远的物体的形状是什么?”“有多少个物体与绿色物体具有相同的形状? ”非关系问题的例子是:“灰色物体的形状是什么?”和“有蓝色物体在场景的顶部或底部吗?”

DeepMind AI 关系推理超越人类:深度神经网络模块即插即用

CLEVER 数据集图像理解问题举例


任务二:bAbl 问答数据集

bAbI 是一个纯文本的 QA 数据集。其中,有 20 个任务,每个任务对应于一种特定类型的推理,如推论(deduction)、归纳(induction)或计数(counting)。每个问题都与一组支撑事实有关。例如,事实“Sandra 拿起了足球”和“Sandra 去办公室了”支撑问题“足球在哪里”(答案:“办公室”)。


如果完成一个任务的准确率超过了 95%,模型就算成功了。

许多记忆增强的神经网络(Memory-augmentated neural network),在 bAbI 上都取得了很好的成绩。当每个任务使用 10K 数量级样本进行联合训练时,Memory Network 的成绩是 14/20,DeepMind DNC 是 18/20,稀疏 DNC 是 19/20,还有 EntNet 是 16/20。

DeepMind AI 关系推理超越人类:深度神经网络模块即插即用

视觉 QA 问题的结构示意图

测试结果表明,RN 的数据是 18/20。


任务三:动态物理系统复杂推理

我们使用 MuJoCo 物理引擎开发了一个模拟连接弹簧的质体的系统的数据集。每个场景都包含 10 个在桌面上移动的彩色球。一些球独立移动,自由地与其他球和障碍墙碰撞。其他一些随机选择的球,则有隐形的弹簧或固定的力连接。


在这些球之间引入随机选择的连接,创造了一个不断变化的物理系统。作者定义了两个独立的任务,仅通过观察多个连续帧里球的颜色以及相应坐标位置:1)推断出球之间的连接力存在还是不存在,以及 2)桌面上有多少个“系统”(包括球以及节点)。


这两个任务都涉及关于球的相对位置和速度的推理。不同的是第一个任务的推论是明确的,而第二个任务要求推理是隐含的,也更加困难。

有效分配,发挥不同结构神经网络的特长

论文展示了如何将用于计算实体间关系的专用模块 RN 应用于更广泛的深度学习架构,从而大幅提高后者完成与关系推理有关的任务的能力。


论文提出的模块化结构 RN 在 CLEVR 数据集上取得了 95.5% 的正确率,超过了人类水平。bAbI 结果也显示了 RN 拥有通用(general)推理能力,解决了 18/20 项任务,没有灾难性的故障。

作者在论文中写道,工作中最有趣的一个方面是在相对简单的、基于 CNN 和 基于 LSTM 的 VQA 架构中,插入 RN 模块,将 CLEVR 的结果从 68.5% 提高到95.5%,取得了当前最优也是超越人类的水平。


作者推测,RN 提供了更灵活的推理机制,而有了 RN 做关系推理后,CNN 更多专注于处理局部空间结构数据,从而实现了整体的性能大幅提升。

作者写道,在计算过程中,区分“处理”和“推理”很重要。例如 ResNet 这样强大的深度学习架构,作为视觉处理器而言十分高效,但可能并不是推理任意关系最合适的选择。

他们这项工作的一个关键贡献是,RN 通过学习能够归纳(induce)上游处理任务,从而提供一组对物体有用的表征。


需要注意的是,输入数据和目标函数并没有指定内部物体表征的任何特定形式或语义。这表明 RN 具有丰富的结构化推理能力,哪怕是非结构化的输入和输出也能胜任。

作者认为,他们新提出的这一关系网络(RN)模块是一种简单而强大的方法,适用于让深度神经网络学习在复杂的现实世界中执行多种不同的、结构化的推理任务。


深度神经网络在理解世界本质方面拥有强大能力

DeepMind 最新上传到 arXiv 网站的两篇论文,结果都展示了神经网络在解构世界方面强大的能力。

神经网络能够将世界解构为一个个由物体组成的系统,以及这些系统内部和之间的关系,并且在此基础上进行泛化,生成对场景以及其中的物体彼此之间新的推论,乍看起来很不相同,然而在本质上却有共通之处。


DeepMind 博客最后写道,他们认为论文中提出的新方法都是可扩展的,能够应用于更多的任务,构建更多的复杂模型,从而更好地理解人类强大而灵活的智能的关键一环——推理。