最近两年,尽管大语言模型在各类问答和生成任务中的表现已有显著提升,但其在需要高专业度和强推理性的任务中仍然面临挑战。
近期,美国宾夕法尼亚大学博士研究生贺家澍及其所在课题组,提出了一种名为图启发式可信度外推(GIVE,Graph Inspired Veracity Extrapolation)的新型推理框架。
图|贺家澍(来源:贺家澍)
具体来说,该框架旨在解决三方面问题:
其一,结合有限外部信息与内部知识。
该团队的研究目标是,在仅有少量外部信息可用的情况下,依然能让模型产生准确且连贯的推理过程。
其中,之所以强调“有限”外部信息,是因为在实际场景中,详尽的知识库或文献资源并不总是容易获得。
其二,保证推理过程的“忠实性”。
由于传统的提示词工程方法,不足以保证模型给出的思维链完全依据事实或专业知识,因此他们希望通过结构化的方式,将有限的外部信息当作一种“提示”,通过与模型内部知识有效结合,以减少不实内容的出现。
其三,应对专业领域的推理难题。
实际上,在如生物医药等专业度高的领域,问答任务往往需要跨越多个概念和关系,数据也往往呈现稀疏或难以收集的特征。
所以,如何在有限数据条件下开展多层次或多阶段推理,是他们希望重点解决的难题。
近日,相关论文以《GIVE:基于知识图谱启发的可信度外推的结构化推理》(GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation)为题在预印本平台arXiv上发表 [1]。
来自宾夕法尼亚大学的贺家澍和 UCLA 的马明宇分别是第一作者和第二作者,宾夕法尼亚大学亚历桑德罗·里贝罗(Alejandro Ribeiro)教授担任通讯作者。
图丨相关论文(来源:arXiv)
总的来看,GIVE 主要实现了以下几项创新。
首先,引入知识图谱,提供结构化提示。
与文本形式的知识库相比,知识图谱在概念及其关系上具有更明确的结构性。将其用作“提示”,可以帮助模型更便捷地发掘关键词之间可能存在的关联。
一旦关键词被知识图谱连接在一起,模型就能更加顺畅地展开“慢思考”,并逐步推导出完整的推理链。
(来源:arXiv)
其次,兼顾内部与外部知识的优势。
对于该课题组而言,其并不假设外部信息足以提供完备的推理链,而是将其视作与内部知识协同的“补充”与“催化剂”。
这不但节约了构建大规模知识库的成本,也让大语言模型原本在预训练中学到的丰富语义信息得以充分发挥。
(来源:arXiv)
再次,发散性思维与多阶段推理。
借助知识图谱的高结构化,该研究让模型能够围绕与关键词相关的概念进行发散性搜索,并逐步缩小范围,形成更加精确和可信的推理过程。对复杂任务而言,这种逐步扩展与筛选的过程尤为重要。
“我们在 PubMedQA 数据集上的实验非常成功:只用了一个包含 135 个节点的稀疏知识图谱,就让 GPT3.5T 的准确度达到了可媲美甚至超越 GPT4 的水平。”贺家澍表示。
很明显,通过引入知识图谱作为结构化提示,该团队在“有限外部信息”与“模型内部知识”之间找到了平衡,让模型更灵活、高效且具有可解释性。
这样的方法,不仅能为生物医药等专业领域的问答与推理任务提供新思路,也为未来在更多知识密集型任务中平衡成本与准确性、泛化性与可解释性提供了借鉴价值。
贺家澍表示,该论文在发表后,已经有相关企业基于他们的方法,成功解决了业务中面临的实际问题。
例如,美国初创公司 Lamics 旨在通过为临床医生提供自动病例记录来减少保险拒赔,增加医疗保险透明度。
其通过实施 GIVE,开发了一套整合稀疏知识图与现有系统的定制化解决方案,能够帮助理解医疗编码间的复杂依赖关系、有效应对数据稀疏、提高合规性与准确性等。
贺家澍表示,好的科研离不开团队成员的共同努力。“从确定研究问题到论文发表,我和明宇进行了不计其数的头脑风暴,许多细节都经过反复的实验和推敲,才从利用知识图谱进行推理的初步思想逐步构建出了 GIVE 的框架。”
另外,基于目前的研究,贺家澍也介绍了后续计划:将 GIVE 中图谱启示的理念与强化学习训练过程结合,让模型在生成思维链的同时,能根据知识图谱给出的提示进行“修正”或“补充”。
“如果能够在模型的后训练过程中就把 GIVE 的理念融入进去,让模型‘学会’如何高效利用外部信息来进行推理,那么在调用阶段无需再额外执行繁琐的外部信息处理流程,这有望进一步降低推理成本,推动构建具有‘高推理能力’的下一代模型。”贺家澍如是说。
参考资料:
1.He J, Ma M D, Fan J, et al. GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation.arXiv:2410.08475, 2024.https://doi.org/10.48550/arXiv.2410.08475
运营/排版:何晨龙