自GPT-4问世以来，大模型似乎越来越聪明，拥有了"。;百科全书"一般的知识储备。但是他们真的接近人类的智慧吗？

事实并非如此。大模型在知识整合和长期记忆方面仍然存在明显的不足，这恰恰是人脑的强项。人脑可以不断整合新知识，形成强大的长期记忆，为我们的思维和决策提供支持。那么大模型如何才能像人脑一样有高效的知识整合和长期记忆呢？

俄亥俄州立大学和斯坦福大学的一组科学家给出了一个有趣的想法:让人工智能拥有一个类似人类海马体的"记忆大脑"。从神经科学的角度来看，他们模仿人脑马体在长期记忆中的作用，设计出一种叫做HippoRAG的模型，可以像人脑一样有效地整合和搜索知识。实验表明，这个"记忆大脑"能大大提高多跳问答等需要知识整合的任务。这个可能指出了让大模型具备"类人"一个全新的记忆方向。

论文标题：HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models

论文链接：https://arxiv.org/pdf/2405.14831

3.5研究测试：
https://hujiaoai.cn

4研究测试：
https://askmanyai.cn

Claude-3研究测试：
https://hiclaude3.com

近几年来，人工智能大模型在各种任务中都表现出了令人瞩目的能力，似乎离"还很远。;通用人工智能"梦想越来越近。但是在知识整合和长期记忆方面，大模型仍然存在着明显的缺陷，难以与人脑的高效率相媲美。

近日，俄亥俄州立大学和斯坦福大学的科学家们提出了一个有趣的想法:让大模型拥有一个像人脑海一样的"记忆操作系统"。它们借鉴了海马体在人脑记忆中的关键作用，设计了一种新的检索增强模式，名为HippoRAG。试验表明，配备了这个"类脑"在各种需要知识整合的任务中，记忆系统的大模型显示出惊人的性能提升。

HippoRAG的诞生，赋予大型模型"类脑"知识整合和长期记忆能力开辟了一条全新的道路。这种突破性的工作有望帮助大模型进一步发挥潜力，朝着更接近人类智力的方向前进。

海马体"记忆术"

HippoRAG的设计灵感来源于大脑中的海马。海马体是大脑中颞叶的重要结构，在学习和记忆中起着关键作用。科学家发现，海马体似乎负责在新的记忆形成过程中"索引"，并且把这些记忆索引联系起来。它使人脑能有效地储存、整合和检索不同的知识，形成持久的长期记忆。

受此启发，研究人员设计了一个类似海马体的"记忆机制"。它们利用大语言模型扮演新皮层的角度，负责处理信息；使用知识地图作为"记忆力索引"，并且引入了连接语言模型和知识图谱的检索模型，模拟内嗅皮层的功能。当模型接收到新的查询时，它首先从查询中提取关键概念，然后将PErsonalized应用于知识图谱。 PageRank算法扩展和检索概念，模拟海马体的联想记忆能力。最终，模型根据节点的重要性对passage进行排序和检索，仿佛在进行"模式补充"。

下图生动地展示了HippoRAG的检索过程。首先，从查询中提取关键概念，如"。;Stanford"和"Alzheimer's"，接着，使用检索器在知识图谱中找到相应的节点。然后使用Personalized 探索PageRank算法图谱，找出Ř等相关性最高的节点;Thomas Sudhof"，最后根据节点的重要性对搜索信息进行排序，成功地搜索到最相关的内容。

研究人员还引入了"特殊节点"这个概念，利用节点在知识地图上的独特性来帮助检索，可以看作是一种合理的神经科学"反向文件频率"信号，使HippoRAG具有权衡概念重要性的能力。

HippoRAG的性能检验

研究人员选择了三个具有挑战性的多跳问答数据集，以考察HippoRAG的知识整合能力：MuSiQue、2WikiMultiHopQA和HotpotQA。这类数据集的特点是需要整合多个支撑段落中的信息来回答问题，对知识整合能力提出了更高的要求。

下表显示了三个数据集中各模型的表现对比。可以看出：

HippoRAG在MuSiQue和2WikiMultiHopQA上的表现在单步检索实验中大大领先于现有的检索模型，F1值提高了3-20个百分点；
同时，HotpotQA也取得了相当于当前最佳模型的成绩。

值得注意的是，在多步检索实验中，当HippoRAG与迭代检索方法IRCoT相结合时，它带来的改进更加明显，三个数据集中的F1值都有3-19个百分点的提高。

更加令人惊讶的是，HippoRAG在单步检索中所取得的效果已接近或超过了IRCoT的多步迭代检索，而计算费用却大大降低。HippoRAG在线搜索时调用GPT-3.5，如下图所示。 IRCoT的API成本仅为Turbo的十分之一至三十分之一，检索速度也提高了6-13倍。这就是说，HippoRAG可以以较低的计算成本，有效地应对复杂的知识整合挑战。

综合实验结果表明，HippoRAG采用的类脑记忆机制在整合大模型知识和长期记忆能力方面取得了显著成效。它不仅在现有的多跳问答任务中达到了新的性能高度，而且表现出处理更复杂问题的潜力。

那是什么赋予了HippoRAG如此强大的能力呢？研究人员进行了一系列消融实验和分析，以深入了解其工作机制。下图显示了对HippoRAG性能的影响，包括不同的OpenIE工具、图遍历算法和关键设计组件。

实验表明，用REBEL等其他OpenIE工具替换GPT-3.5将导致HippoRAG性能显著下降。它揭示了GPT-3.5在灵活构建知识图谱方面的独特优势。当Llama-3用开源语言模型取代GPT-3.5时，特别是8B版本，HippoRAG的表现与GPT-3.5非常接近。这一发现表明，为了进一步拓展其应用场景，我们可以使用更经济的开源模型来训练HippoRAG。

个性化PageRank在图遍历算法的选择上显示出明显的优势。HippoRAG的性能在使用其他基于查询节点的简单遍历方法时会大大降低。这证明了个性化PageRank在捕捉查询和知识地图之间复杂关系方面的独特作用。

另外，消融实验也证实了节点特异性和同义词连接这两个关键设计的价值。在2WikiMultiHopQA上，去除节点特异性会导致MuSiQue和HotpotQA的性能下降，而去除同义词连接会显著影响HippoRAG在2WikiMultiHopQA上的表现。由此可见，节点特异性可以帮助HippoRAG平衡不同概念的重要性，同义词连接可以促进实体对齐和知识整合。