智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 论文题目:Reasoning emerges from constrained inference manifolds in large language models
第一作者:马彦彪
论文链接:https://arxiv.org/abs/2605.08142
论文项目链接:https://neofii.github.io/Reasoning-Manifold/
不再迷信 Benchmark 分数。研究发现:真正会推理的大模型,内部并非“乱想”,而是自发坍缩到一个极低维、高信息密度的“受约束空间”。一种全新的、基于内部动力学的“推理健康度”诊断法诞生。
过去几年,评价 LLM 推理能力的方法非常粗暴:看 Benchmark。
GSM8K、MATH、GPQA、AIME、LiveBench……本质上都是在看最终答案。但作者指出,这里有一个巨大的盲区: Benchmark 只能看到“结果”,却看不到“内部过程”。
这就像看到一个学生做对了一道数学题。你不知道他是:
对于 LLM 同样如此。两个模型可能 Benchmark 分数差不多,但内部机制可能天差地别。一个可能是“真推理”,另一个可能只是“会考试”。类比测谎仪,它只关注人类说话时大脑的脑电状态,并不直接判断人类所说的话的真实性,如果把LLM比作人脑,那么是否可以用“类脑电”或者其他探测方式来判断大模型是否真的聪明。
为了揭开黑盒,研究者并没有关注模型最终输出了什么答案,而是盯着模型在生成每一个 token 时,内部隐藏状态(Hidden States)轨迹是如何演变的。
通过对 Qwen2.5/3、Gemma 3、DeepSeek-R1 等多个主流模型家族的深入分析,团队观察到一个惊人且一致的现象:
理论上,LLM 的隐藏状态维度极高(2048、4096 甚至更高)。如果推理是一种复杂的“搜索”,那么这些状态轨迹应该在高维空间中四处扩散、自由探索。
但实验结果完全相反。
研究者记录了模型生成每一个 Token 时,每一层最后一个 Token 的隐藏状态。他们发现: 几乎所有大模型,在推理过程中,内部状态都会自发地“坍缩”到极低维的空间(图1)。
图 1 展示不同模型层间内在维度ID的快速下降
注意关键词:自发(Spontaneous)。 这不是架构强行限制的 Bottleneck,也不是 PCA 降维,而是模型在推理时,自己把自由度收缩了。
这意味着,一个拥有几千维表示空间的大模型,在真正推理时,实际上只在一个极小的低维流形中运动。
更有趣的是:越强的模型(如 Qwen3、DeepSeek-R1、Gemma3),收缩越快,轨迹越稳定,流形越清晰。
这像极了高手解题:真正厉害的人,不是尝试更多可能,而是一开始就知道哪些方向是错的,迅速排除干扰,进入正确的逻辑子空间。
除此之外,作者还发现了以下现象:
这意味着,推理本质上是一个在高维 expressive 空间中,沿着低维紧凑流形进行的动力学过程。
图 2 无论提示词如何变化,无论模型规模大小,这种低维结构普遍存在。以及静态词嵌入的高维与推理轨迹的低维对比
既然推理发生在低维流形上,是否意味着维度越低,推理能力越强?
答案是否定的,因为有些模型虽然很低维,却并不聪明(图3A)。
作者发现,部分模型虽然轨迹收缩得很厉害,但信息也一起塌掉了。它们进入了一种“刚性推理”或“退化坍缩”的状态,即轨迹很稳定,但没有真正的信息流动,像一条“死掉的轨迹”。
图 3 A:本征维度低,不总是表现好。B:推理流形信息量随着层数加深而快速增加。
因此,论文提出了第二个关键原则:非退化信息保持(Non-degenerate Information Preservation)。
作者定义了信息体积(Information Volume, V),用于衡量推理流形内部保留了多少有效结构。
结果令人惊讶:
这非常反直觉,因为维度的降低往往带来巨大的信息损失。这说明,真正的 Reasoning 不是简单降维,而是在受约束的流形中,保持高密度的信息组织。模型在压缩噪声的同时,放大了与任务相关的概念变化。图 4 清晰地展示了这一点:高性能模型并非分布在单一轴线上,而是密集聚集在一个“低维度 + 高信息量”的狭窄区域内。偏离这个区域的模型,要么过于松散(Diffuse),要么过于退化(Degenerate),表现均不佳。
图 4 三维空间展示模型分布,高性能模型集中在低维、高信息量的区域
即使低维结构存在、信息量足够,模型仍可能不稳定。为什么?
因为世界表达空间(World Expressivity)不够大。
作者测量了模型静态词汇嵌入(Vocabulary Embedding)的内在维度,定义为 D world。它代表模型对“世界概念”的基础表达能力,决定了模型在面对多样化概念时,是否有足够的“空间”来承载信息。表达能力强的模型,在面对复杂刺激时,推理流形更稳定(图5)。
图 5 逐渐增加刺激的多样性,推理流形的本征维度变化曲线。
研究发现: 真正强的模型,同时满足两个看似矛盾的条件:
这意味着,推理并不是整个模型都变低维,而是在一个极高维的世界模型底座之上,动态涌现出低维的推理流形。
基于上述发现,团队提出了一个统一的、无标签的结构化诊断指标 H:
这个指标的神奇之处在于:它完全不使用任何任务标签、正确答案或基准测试分数,仅从模型内部的几何和信息流动中计算得出。
为了验证其有效性,研究者将该指标与多个独立推理基准(如 AIME'25, GPQA-Diamond, LiveCodeBench 等)进行了相关性分析。
结果令人震惊: 在所有评估的基准测试中,诊断指标 与模型实际性能之间的 Spearman 秩相关系数均超过 0.9!
图 5B 展示诊断指标与各基准测试性能的高相关性柱状图
这意味着,只要看一眼模型内部的动力学结构,我们就能准确预判它在数学、代码、科学推理等任务上的潜力,而无需标注大量的真实答案。
这项研究为大模型的可解释性和评估带来了范式转移:
这项研究的意义,可能远超评估本身。
它第一次将“推理能力”从 Benchmark Engineering 的范畴,拉入了 Dynamical Systems Science(动力系统科学) 的视野。
如果这一理论成立,未来大模型的训练范式可能会发生根本性转变:
不再仅仅追求 RLHF 或 Preference Optimization 带来的分数提升,而是直接优化推理流形:
换句话说,未来的训练目标,将从“优化答案”变成“优化内部动力学结构”。
也许未来回头看,Transformer 架构最伟大的秘密,并不是 Attention 机制本身。
而是它创造了一个足够高维的表达空间,使得复杂的语义表示能够自发涌现出可持续的、低维的推理动力学。
真正的智能,可能不是“会做题”,而是一个复杂系统如何在混乱中建立秩序的能力。
