多模态知识图(MKG)推理通过向传统知识图的实体中添加多模态辅助信息(即文本和图像)获得了令人印象深刻的性能,因此引起了人们的广泛关注。然而,现有的研究严重依赖于基于路径的方法来学习结构模态,未能捕捉到推理路径之外多模态实体之间复杂的结构相互作用。此外,现有的研究在很大程度上忽略了不同多模态特征对不同推理决策事实的动态影响,它们利用非对称共同注意来独立学习不同模态之间的静态相互作用,而没有动态地加入推理过程。为了克服这一问题,我们提出了一种新的动态结构感知表示学习方法,即DySarl,并显著提高了MKG的推理性能。具体来说,我们在DySarl中设计了一个双空间多跳结构学习模块,通过一种新的消息传递机制聚合多模态实体的多跳结构特征。它集成了欧几里得空间和双曲空间的消息范式,有效地保留了有限的多模态查询路径之外的邻域信息。此外,DySarl还具有交互式对称注意模块,通过新设计的对称注意组件和事实特异性门控注意单元,明确学习单模态注意发送者和多模态注意目标对决策事实的动态影响,使DySarl具备多模态特征学习与后期推理之间的动态关联。大量的实验表明,与最先进的基线相比,DySarl在两个公共MKG数据集上取得了显着提高的推理性能。
多模态知识图推理(MKGs)由于其更符合现实世界的复杂场景,如多模态检索和社会媒体分析,引起了人们的广泛关注。MKG本质上是由多模态节点(实体)组成的多关系图。它不仅包含传统知识的结构三元组(主语、关系、宾语),而且还包含丰富的多模态辅助信息(如文本和图像)。
要执行良好的MKG推理,需要很好地解决两个基本问题。1)在图层,如何有效地学习多模态实体(也称为结构模态)之间的复杂结构特征?2)在实体层面,如何有效地融合不同形态的辅助特征?我们认为,现有的研究未能正确地学习非常复杂的图级结构模态(即多模态多跳结构)和实体级跨模态注意动态,阻碍了MKG推理的性能提高。
为了有效地融合实体级多模态特征,早期的方法[9]仅通过向量拼接来整合不同模态的粗粒度信息。一些作品[39,43]使用传统的自注意机制[35]来提取实体的细粒度图像特征,但这些方法忽略了各种模态之间的细粒度注意交互。共同注意机制[14,44,46]后来被提出来解决这个问题,并取得了显著的性能改进。然而,它们都没有解决在推理时不同模式对各种决策事实的动态影响。如图1(b)所示,在跨模态特征融合阶段,之前的方法[4,46]将某些模态特征(如文本和图像)视为注意发送者;因此,注意目标学习过程排除了这些模态,并专注于捕捉它们对目标模态特征(如结构)的影响。此外,在传统的基于编解码器的架构中,特征融合阶段(编码器部分)将固定的实体嵌入传递给推理阶段(解码器部分)。如图1(b)所示,固定实体嵌入在推理阶段的得分计算过程中保持静态,从而限制了不同多模态实体级特征对推理阶段不同决策事实的贡献,导致推理性能不佳。
我们的贡献。为了进一步填补这一研究空白,我们提出了一种新的MKG推理方法,即DySarl,该方法通过动态结构感知表示学习来正确学习图级多模态多跳结构和实体级跨模态注意动态。为了正确地学习复杂的多模态多跳结构,我们提出了一个双空间多跳结构学习(Dual-space multihop Structural learning, DMS)模块。具体而言,如图2(a)所示,我们利用多层图神经网络(GNN)架构,精心设计了一种新的消息传递机制,以聚合mkg中多模态实体之间的多跳结构特征。在此基础上,结合欧几里得空间和双曲空间的消息范式,学习基于关联和基于层次的结构特征,有效地保留了有限多模态查询路径之外的复杂邻域信息。
为了捕捉实体级特征融合过程中的跨模态注意动态,我们提出了一个交互式对称注意融合(ISA)模块。如图2(c)所示,设计了一种新的注意机制,学习不同模态实体显式特征对决策事实的动态影响,对称统一地将mkg中的所有模态信息作为事实推理的注意目标。同时,我们结合了一个精心设计的可学习的事实特定门控注意单元,以建立多模态特征学习与后期推理之间的动态关联,学习不同决策事实实体特征的动态权重。因此,可以很好地捕捉到单模态注意发送者和动态学习的多模态注意目标对推理的影响。这大大增强了ISA模块中跨模态特征融合过程的对称性。
我们的贡献总结如下。
- 我们提出了一个新的框架来解决图级多模态多跳结构和实体级跨模态注意动态在MKG推理中的挑战。
- 为了聚合多模态实体之间的多跳结构,我们通过多层gnn传递双空间消息,设计了一个融合了关联和分层结构特征的DMS模块。
- 为了捕捉不同模态对各种决策事实的动态影响,我们设计了一个ISA模块,以交互对称的方式融合跨模态特征。
- 在两个著名的MKG数据集上进行了穷举实验。DySarl在MKG推理中的有效性可以从所有基准模型在所有性能指标上取得的改进中看出。
本文的其余部分结构如下。第2节讨论了相关工作。第3节详细介绍了DySarl模型。第4节描述了实验分析,第5节给出了结论。
现有的MKGs推理建模策略可分为单模态方法和多模态方法两大类。我们根据捕获复杂多模态结构的能力,对表1中现有MKG推理方法的类别进行了总结。
单模态方法只考虑MKGs中包含的结构信息,不包括视觉和语言模态。早期的方法只能捕捉到单跳的特征。其中,基于翻译的模型[3,16 - 18,30]将有效事实三元组中主客体之间的关系距离最小化。基于张量分解的方法,如ComplEx[32]和DistMult[41],通过分解关系矩阵来建立主体和客体之间的联系。基于卷积的方法,如ConvE[8]和ConvTransE[28],以及基于双曲嵌入的方法ATTH[5],通过分别在欧几里得空间和双曲空间中对一跳关联和层次进行建模,实现了单跳结构学习的高级性能。多跳路径学习方法主要依靠强化学习来启发式地生成查询相关的推理路径;这些方法包括GaussianPath[37]、DeepPath[40]、RLH[36]和MINERVA[7]。此外,还有其他多跳路径学习方法,如基于迁移学习的FIRE[45]和基于规则的NeuralLP[42]。基于gnn的方法已广泛应用于单峰kg的多跳结构学习,其中基于关联的方法侧重于捕获中心实体与其欧几里得邻域之间的多跳关系交互;这些方法包括CompGCN[34]、RGCN[26]、KBGAT[25]、RETIA[20]等[10,19,21]。相比之下,基于层次的方法,如ReTIN[13]侧重于通过基于双曲嵌入的gnn感知跨邻域的多跳分层特征。然而,一方面,现有的基于层次的和基于关联的消息传递范式位于不同的空间,彼此分离,尚未统一,难以学习完整的多跳结构特征。另一方面,上述方法无法有效整合mkg中存在的多模态信息(如文本和图像)。
近年来,人们提出了几种适用于多模态场景的MKG推理方法。针对MKGs中多模态实体之间的单跳结构,一些研究利用传统的拼接或自关注操作提取实体级辅助模态特征,并利用TransE预测缺失实体;这些方法包括TransAE[38]和IKRL[39]。此外,MKRL[31]和KR-AMD[47]使用文本描述增强实体表示。此外,MTRL[27]全面整合了来自结构、视觉和语言模态的信息,通过亚能量函数的总和将这些多模态特征结合起来。基于最优传输的方法OTKGE[4]侧重于对齐不同模态的低维矢量嵌入之间的分布;这种方法是一种共同注意方法,因为它强调模态之间的相互作用。然而,使用单跳方法(例如TransE)对MKGs中的结构模态进行编码会给上述方法带来重大限制。其中,MTRL和OTKGE在单跳MKG推理中都取得了相对先进的性能。MMKGR[46]是目前最先进的MKG推理的多跳路径学习方法;该模型利用强化学习为基于目的地、距离和不同奖励的多模态实体生成查询路径,并通过将辅助模态的共同关注分配给结构模态来融合跨模态特征。然而,一方面,上述方法无法捕获多模态实体的多跳路径之外的复杂结构特征。另一方面,以往开发的方法中跨模态特征融合过程不够充分,忽略了不同模态对不同推理事实的动态影响。因此,需要一个统一的框架来动态集成MKGs中的视觉、语言和多跳结构模式。
在本节中,我们提出了我们提出的DySarl模型。我们首先介绍符号和定义,并提供框架概述,然后对其三个模块进行全面解释。此外,我们还详细阐述了DySarl的训练策略和时间复杂度。
在本文中,我们提出DySarl来解决图级多模态多跳结构和实体级跨模态注意动态在MKG推理中遇到的挑战。具体来说,DySarl擅长在结构模态学习过程中捕捉超越有限推理路径的复杂多跳结构。此外,DySarl可以有效地突出跨模态特征融合过程中不同模态对不同推理事实的动态影响。通过学习mkg中多模态实体的准确表示,我们的实验证明了DySarl在基线模型上的显著推理性能改进。
到此这篇lda主题模型困惑度(lda主题模型困惑度_Perplexity(困惑度)详解)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/rfx/45044.html