Counterfactual Vision-and-Language Navigation via Adversarial Path Sampler

研究背景

  1. 视觉语言导航(VLN)任务概述:VLN 任务要求智能体理解自然语言指令,对周围环境的视觉信息进行编码,并将场景的关键视觉特征和适当动作与指令相关联,以在 3D 环境中移动到目标目的地。

  2. 数据稀缺问题:在 VLN 任务中,数据稀缺是主要挑战之一。以 Room-to-Room(R2R)数据集为例,其中可能的路径超过 20 万条,但训练数据仅包含 14K 条采样路径。这使得在交互式环境中学习视觉和语言之间的最佳匹配变得极具挑战性。

  3. 反事实思维的应用潜力:人类在面对数据稀缺的导航场景时,可通过反事实推理等机制进行导航。反事实思维描述了人类为已发生的生活事件创造可能替代方案的倾向 。此前,反事实思维已用于提高模型在各种任务中的稳健性,但尚未明确应用于 VLN 任务。Speaker - Follower 模型虽使用反向翻译的说话者模型生成增强训练示例,类似反事实过程,但随机采样方法过于随意,限制了反事实思维在数据增强中的作用(如图 1 所示,随机采样增强数据的模型在增强路径占训练数据 60% 或更多时,成功率停止增加)。

    VLNviaAPS-1

相关工作

视觉与语言导航

基于自然语言指令的三维环境导航最近已被许多研究所研究。对于视觉与语言导航(VLN)而言,会提供细致的由人类编写的指令,用以在室内环境中引导机器人进行导航。但由于数据收集成本高昂,数据稀缺是视觉与语言导航中的一个关键问题。

为了增加更多用于训练的数据,“Speaker-Follower ”模型运用一个反向翻译的speaker模型,为随机采样的路径生成指令。尽管从这些额外的路径中取得了一定的改进,但最近的一项研究表明,在这些增强的路径中,只有有限数量的路径是有用的,并且在使用了60%的增强数据后,随着更多增强数据的使用,改进效果会逐渐减弱。在本文中,我们提出了一种与模型无关的对抗路径采样器,它通过与导航器的对抗学习过程,逐步生成更具挑战性的路径,从而促使导航策略随着增强数据的增加而得到改进。

反事实思维Counterfactual Thinking

是指人类倾向于为已经发生的生活事件设想可能的替代情况。人类常常会提出诸如 “要是……会怎样?” 或 “要是只有……” 这样的问题,来思考不同情景的结果,并在这个过程中运用推理。在数据科学领域,反事实思维已被用于使训练好的模型具有可解释性且更加稳健。此外,反事实思维也被应用于扩充训练目标。尽管先前的研究表明在不同任务上有一些改进,但它们在实施反事实思维时都比较随意,没有通过选择过程来对可能优化学习的反事实数据进行采样。这会限制反事实思维的有效性。在本文中,我们将对抗训练与反事实条件相结合,以引导模型进行可能带来稳健学习的操作。通过这种方式,我们可以最大限度地发挥反事实思维的作用。

对抗训练 Adversarial Training

对抗训练指的是这样一个过程:两个模型试图对彼此的性能产生不利影响,结果是,两个模型在相互竞争中得到改进。对抗训练已成功用于在模型训练期间引导目标。除了引导训练目标之外,对抗训练也被应用于数据增强。然而,先前的研究只是使用固定的预训练生成器来生成大量的增强示例。在本文中,生成器会随着目标模型一起更新,并充当路径采样器,为有效的数据增强采样具有挑战性的路径。

具体方法

VLNviaAPS-2

  1. 总体框架:提出对抗驱动的反事实推理模型,引入模型无关的对抗路径采样器(APS)。APS 通过与导航模型(NAV)的对抗学习过程,逐步生成更具挑战性的路径,使导航模型在训练中优化导航策略。同时,利用反向翻译的说话者模型(Speaker)为采样路径生成指令(如图 2 所示)。

  2. APS 架构:APS 是一个循环动作采样器,它根据环境提供的场景图像的视觉特征和先前动作,通过长短期记忆(LSTM)编码器和注意力机制,计算加权和得到当前的视觉特征表示,进而决定下一步动作(如图 3 所示)。

    VLNviaAPS-3

  3. 对抗训练过程:在对抗训练中,APS 通过最大化导航模型在采样路径上的导航损失$L_{NAV}$来学习采样具有挑战性的路径,而导航模型则通过最小$ L_{NAV} $来提高导航性能。训练过程中,将 APS 采样的路径转换为最短路径(仅在已知环境中),使用 Speaker 模型生成指令,得到增强对$(P, I)$ ,用于训练导航模型。通过策略梯度方法优化 APS 的目标函数$L_{APS}$(具体公式为$\mathcal{L}{APS}=-\mathbb{E}{p\left(P ; \pi_{APS}\right)} \mathcal{L}_{NAV}$) (算法 1 详细说明了训练过程)。

    algorithm1

  4. 基于环境的预探索:提出使用 APS 进行基于环境的预探索,使导航模型适应未知环境。在未知环境中,APS 采样多个路径,Speaker 模型生成指令,利用这些路径和指令优化导航模型(如图 4 所示)。在预探索过程中,仅优化导航模型,固定 APS,以避免采样过于困难的路径影响模型性能。

    VLNviaAPS-4

实验结果

  1. 实验设置:使用 R2R 数据集进行实验,该数据集基于 Matterport3D 构建,包含不同环境的训练集、验证集(分为 seen 和 unseen)和测试集。评估指标包括导航误差(NE)、神谕成功率(OSR)、成功率(SR)和路径长度加权成功率(SPL)。实验的基线模型包括 Seq2Seq、Speaker - Follower 和 RCM。

  2. 定量结果:在验证集 seen 环境下,使用 APS 采样路径训练的模型(如$Seq2Seq_{aps}$)在所有评估指标上均优于使用随机采样路径训练的模型(如$Seq2Seq_{rand}$),例如$Seq2Seq_{aps}$在成功率上有 4.5% 的绝对提升,在 SPL 上有 2.9% 的提升。在验证集 unseen 和测试集环境下,使用 APS 采样路径训练的模型同样优于随机采样的模型,表明 APS 采样路径不仅在 seen 环境中有用,还能增强模型在 unseen 环境中的泛化能力。此外,基于环境的预探索进一步提升了模型性能,特别是在 Seq2Seq 和 Speaker - Follower 模型的 SPL 指标上(具体数据见表 1 和表 2)。

    t1

    t2

  3. 消融研究:对比随机路径采样和对抗路径采样,发现随机采样的增强数据在使用超过 60% 时,对模型的提升有限,而 APS 采样的增强路径在更多数据使用时仍能使模型受益(如图 5 所示)。分析 APS 采样路径的难度和有用性,发现其虽具有挑战性,但能训练出更强大的导航模型,且覆盖了比随机采样路径更有用的路径。研究预探索的效果时发现,随着预探索步数的增加,模型性能存在权衡,不同模型有不同的最佳预探索步数(如图 7 所示)。同时,在特征差异较大的未知环境中,预探索的效果更显著(如图 8 所示)。

    5

    78

  4. 定性结果:通过可视化导航路径,展示了在 “走出浴室” 指令下,预探索能帮助模型在未知环境中成功走出浴室并到达目标,而未进行预探索的模型则被困在浴室中(如图 9 所示)。

    9


Author: CuberSugar
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint polocy. If reproduced, please indicate source CuberSugar !
  TOC