本文是LLM系列文章,针对《Empowering Language Models with Knowledge Graph Reasoning for Open-Domain Question Answering》的翻译。
摘要
回答开放领域的问题需要掌握有关上下文实体的世界知识。由于预先训练的语言模型缺乏存储所有所需知识的能力,因此通常使用外部知识源(如知识图谱)来增强语言模型。在这项工作中,我们提出了knOwledge REasOning授权语言模型(OREOLM),该模型由一个新的知识交互层组成,该层可以灵活地插入到现有的基于Transformer的LM中,以与可微知识图谱推理模块协同交互。通过这种方式,LM引导KG走向期望的答案,而检索到的知识改进了LM。通过在RoBERTa和T5中采用OREOLM,我们显示出显著的性能提升,在闭书设置中实现了最先进的结果。性能的提高主要来自KG推理推断缺失关系事实的能力。此外,OREOLM提供了推理路径作为解释模型决策的理由。
1 引言
2 方法
3 实验
4 相关工作
5 结论
我们提出了OREOLM,这是一个将符号KG推理与现有LM相结合的新模型。我们展示了OREOLM可以为开放域QA基准带来显著的性能提升,无论是对于闭书和开书设置,还是仅编码器和编码器-解码器模型。此外,OREOLM生成有助于解释模型预测的推理路径。未来,我们希望通过训练来改进OREOLM,以执行更多的推理步骤,支持局部推理,并将OREOLM应用于更广泛的知识密集型NLP任务。
6 局限性
有限的推理步骤
在我们的实验中,我们表明在单跳和多跳(主要是两个)QA数据集上,使用推理步骤T=2比T=1具有更好的性能。因此,我们是否可以更多地扩展推理步骤,这是一个自然的问题?由于以前的KG推理大多可以支持很长的路径(使用LSTM设计)。尽管我们在提交论文之前没有花太多时间进行探索,但我们确实尝试使用t=3,但目前没有得到更好的结果。我们假设以下原因:1)我们当前模型的改进很大一部分依赖于弱监督关系预训练。为此,我们构造了一个K-hop(K=2)子图,并在此基础上对依赖图进行采样。我们选择的K越大,生成的关系标签中包含的噪声就越多,速度呈指数级增长。因此,对于高阶T,很难获得准确的推理路径基本事实。另一个潜在的原因是,在Transformer模型中,下层和上层的表示空间可能非常不同,例如,在下层编码更多的语法和表面知识,而在上层编码更多的语义知识。目前,我们采用了MLP投影头,希望将集成知识映射到同一空间,但它可能存在许多缺陷,需要进一步改进。
大型实体嵌入表需要预训练和GPU资源
我们目前的设计有一个庞大的实体嵌入表,应该通过额外的监督来学习,不能直接微调到下游任务。这限制了我们方法的使用。
需要实体链接
当前的模型设计需要为传入的问题添加实体链接的额外步骤,然后添加特殊的token作为接口。一个真正的端到端模型应该确定哪些元素可以在不依赖外部模型的情况下开始自己进行推理。
仅支持基于关系路径的推理
尽管有很多潜在的推理任务,如逻辑推理、常识推理、物理推理、时间推理等。我们目前的模型设计主要侧重于基于路径的关系推理,在现阶段不应该适用于其他推理任务。
路径独立性的不合理假设
当我们推导方程1时,我们假设从不同实体开始的推理路径应该是独立的。这并不总是正确的,尤其是对于需要逻辑推理的问题,比如对每个实体状态进行连接或析取运算。因此,我们目前的方法可能不适用于那些具有逻辑依赖关系的复杂QA。