人们越来越意识到,大语言模型(LLM)里「找信息」这件事,并不是简单地翻字典,而和「写信息」的能力紧紧绑在一起。
为了看清这个问题,弗吉尼亚大学和纽约大学神经科学中心研究人员借用了心理学里的「前摄干扰」(proactive interference)概念:先出现的信息会妨碍我们回忆后来更新的内容。
于是,研究团队使用认知科学经典范式设计了一个新的测验PI-LLM,像播放连续剧一样,把一组语义相关的「键key—值value」配对(例如「key苹果,value红色」)依次喂给模型,并不断更新这些值;最后只问模型「某个key对应的最新value是什么」。
研究人员尝试用提示工程,比如明确告诉模型「请忽略前面所有旧信息」,但效果有限。
下一步,也许需要新的方法,让模型学会在检索时主动「忘掉」不该用的内容。
这篇论文发现了一个影响所有大语言模型(LLM)的信息检索问题。
论文已被 ICML 2025 Workshop on Long Context Foundation Models接收。
郑喆阳(Flatiron Institute CCN 客座研究员、纽约大学博士生)与邝一伦(纽约大学 CILVR Lab 博士生,导师:Yann LeCun)在项目的发起与推进过程中,提供了关键性的咨询和建议。
任务数据input
「Blood Pressure=120, Bp=135, Bp=119」
血压(BP)的最后一个数值(value)是多少?
目前所有主流LLM(从最新的 GPT-4.1、Llama-4、DeepSeek-V3,到Llama-3、Qwen-2.5等,参数规模从0.6B到600B+不等)都无法稳定地提取最后一个数值,而且错误方式呈现出明确的数学规律呈现对数下降。
对人类来说,这个任务非常简单,答案显而易见是最后一个值119。因为本任务没有搜索难度。
实验结果
核心发现:普适的衰减曲线
随着干扰增多,准确率最终稳定地降至0%。此时,所有模型彻底失灵,100%产生幻觉(hallucination),100%无法给出正确答案。
当语言模型需要在大量语义相似的干扰项之后检索特定目标信息时,其检索准确率会显著且持续地降低,这种对数线性下降趋势在所有主流模型中均被观察到。
实验设置
随机,乱序混合这些更新,然后模型正确提取每个key 的last vale(最新值)的正确率
这一任务的设计本质上非常简单:
(2)不存在逻辑上的难度
分析错误答案显示,模型经常错误地提取了无关的上文更新值作为最终答案,这表明当前的LLM在处理此类信息流时难以有效忽略或过滤掉非目标(旧)信息。
研究人员还发现,有多种方式可以触发搜索失败,均具备相同的对数衰减曲线:1) 增加同时追踪Key的数量,或者2)增加配对Value的token长度。
现象解读:「Unable to Forget」
尤为反直觉的是,即使采用最直观的自然语言干预策略,例如在输入中明确提示答案所在区域,或直接告诉模型「专注最新更新」或「忘记之前信息」,也无法显著改善模型表现。
由此可以知道,要对抗干扰,很可能需要对模型架构本身或训练范式进行根本性调整,而非仅依赖提示工程。
对错误的分析表示,LLM的失败并非随机失误,而是系统性地受到反复更新的影响。
初期:邻近干扰占主导,检索错误来源主要是紧邻末尾的value。
后期:彻底混乱,模型输出高度分散和大量检索到从未输入的值。
结果显示:随着更新次数增加(左→右面板),正确命中最终值(土黄)的比例骤降。 更值得注意的是,错误响应从主要聚集在最终更新附近(如Bin 10-11,可能是混淆相邻更新),逐渐转变为分散到更早的区间(Bin 1-9)。
Top-Down调控的彻底失效
自然语言prompt失效:本文测试了多种提示词(prompt)变体,明确引导模型关注最新信息或忽略历史干扰(例如,明确标注答案区域、「专注下文」或指令「忘记之前内容」)。结果: 所有自然语言干预措施,均未能显著提升模型在的提取准确率,也未能改变的log-linear正确率衰退模式。干扰累积时,模型依然顽固地滑向彻底错误(0%正确率)
这说明,干扰信息对模型行为的影响超越了自然语言指令所能引导或抑制的范围。模型「理解」了指令(如声称要专注最新值),但在实际操作中无法有效执行,仍被历史信息强力牵引注意。
思维链(CoT)模型对提升信息检索抗干扰能力几乎无效。启用CoT的版本(虚线)性能曲线与其基础模型(实线)高度重合或更差。证实:干扰导致的检索失败是底层机制问题,无法通过附加的「思考」过程克服。
然而实验表明,所有这些提示工程策略均未能有效缓解信息过载导致的检索性能崩溃,对数衰减模式依旧,突显了现有自然语言干预的局限性。
此外受LLM提示劫持(prompt Hacking)的启发,研究人员设计了一种非自然语言的对抗式提示策略(adversarial prompting),通过构造具有欺骗性的输入,模拟模型自身的回复格式和逻辑:
这种「欺骗性上下文隔离」策略部分提升了正确率,但提升后的正确率依然遵循log-linear decay规律。
上图揭示了关键结果:旨在缓解干扰的自然语言提示策略(实线)效果普遍微弱,在高更新量下与基线(黑线)性能曲线几乎无区别,部分策略反而有害。唯一例外是结构化hack-Mock QA重置(橙色虚线),作为人为设计的「hack method」,它带来了实质性提升,但仍无法阻止准确性随信息量增长的整体下滑。
不同于业内通常认为的输入文本长度导致注意力稀释,本文控制变量实验证明。
具体来说,即使固定输入文本长度,控制干扰强度,LLM的错误率依然表现出对数上升。
DeepMind 的 MRCR 和 OpenAI 的 Open MRCR通过仿真测试 在长文本中插入大量相似项,揭示了 LLM 区分相似信息的弱点。
研究人员定量剥离出「干扰」(Interference)作为核心独立变量,直接证明其对性能的因果性负面影响。
OpenAI 在 GPT-4.1 文档中指出,客户(尤其在法律、金融领域)高度关注频繁更新并提取信息的任务。(链接Introducing GPT-4.1 in the API)。
实验同时对认知科学角度提供了对比:
实验采用了严格对应认知科学的实验范式。
LLM的普遍失效,强烈暗示其目前尚缺乏人类般有效进行 Top-Down 控制、以优化利用上下文信息的能力。
核心结论
ICML评审意见也认可了该研究揭示了一个此前未被发现的LLM检索失败现象,采用认知科学启发的测试设计方法,具有显著新颖性。
https://arxiv.org/abs/2506.08184
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。
