首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

LLM推理机制被发现了?研究发现所有大模型都会坍缩到低维空间

发布日期:2026-05-19 来源:新浪财经作者:新浪财经浏览:2

Reasoning Manifold

  论文题目:Reasoning emerges from constrained inference manifolds in large language models

  第一作者:马彦彪

  论文链接:https://arxiv.org/abs/2605.08142

  论文项目链接:https://neofii.github.io/Reasoning-Manifold/

  不再迷信 Benchmark 分数。研究发现:真正会推理的大模型,内部并非“乱想”,而是自发坍缩到一个极低维、高信息密度的“受约束空间”。一种全新的、基于内部动力学的“推理健康度”诊断法诞生。

我们一直在“误解”推理?

  过去几年,评价 LLM 推理能力的方法非常粗暴:看 Benchmark。

  GSM8K、MATH、GPQA、AIME、LiveBench……本质上都是在看最终答案。但作者指出,这里有一个巨大的盲区: Benchmark 只能看到“结果”,却看不到“内部过程”。

  这就像看到一个学生做对了一道数学题。你不知道他是:

  • 真正理解了逻辑?
  • 还是背过了答案?
  • 还是运气好蒙对的?
  • 甚至是简单的 Pattern Matching(模式匹配)?

  对于 LLM 同样如此。两个模型可能 Benchmark 分数差不多,但内部机制可能天差地别。一个可能是“真推理”,另一个可能只是“会考试”。类比测谎仪,它只关注人类说话时大脑的脑电状态,并不直接判断人类所说的话的真实性,如果把LLM比作人脑,那么是否可以用“类脑电”或者其他探测方式来判断大模型是否真的聪明。

震撼发现:推理是“自发坍缩”

  为了揭开黑盒,研究者并没有关注模型最终输出了什么答案,而是盯着模型在生成每一个 token 时,内部隐藏状态(Hidden States)轨迹是如何演变的。

  通过对 Qwen2.5/3、Gemma 3、DeepSeek-R1 等多个主流模型家族的深入分析,团队观察到一个惊人且一致的现象:

  理论上,LLM 的隐藏状态维度极高(2048、4096 甚至更高)。如果推理是一种复杂的“搜索”,那么这些状态轨迹应该在高维空间中四处扩散、自由探索。

  但实验结果完全相反。

  研究者记录了模型生成每一个 Token 时,每一层最后一个 Token 的隐藏状态。他们发现: 几乎所有大模型,在推理过程中,内部状态都会自发地“坍缩”到极低维的空间(图1)。

图 1 展示不同模型层间内在维度ID的快速下降

  注意关键词:自发(Spontaneous)。 这不是架构强行限制的 Bottleneck,也不是 PCA 降维,而是模型在推理时,自己把自由度收缩了。

  • 随着层数加深:内在维度(Intrinsic Dimension, ID)快速下降。
  • 最终稳定区域:很多模型最后甚至稳定在低于 10 维的区域。

  这意味着,一个拥有几千维表示空间的大模型,在真正推理时,实际上只在一个极小的低维流形中运动。

  更有趣的是:越强的模型(如 Qwen3、DeepSeek-R1、Gemma3),收缩越快,轨迹越稳定,流形越清晰。

  这像极了高手解题:真正厉害的人,不是尝试更多可能,而是一开始就知道哪些方向是错的,迅速排除干扰,进入正确的逻辑子空间。

  除此之外,作者还发现了以下现象:

  • 普适性: 无论提示词如何变化,无论模型规模大小,这种低维结构普遍存在(图2C)。
  • 特异性: 静态的词向量嵌入仍然保持高维(保留了对世界知识的丰富表达),但一旦进入推理动态,维度急剧压缩(图2B)。

  这意味着,推理本质上是一个在高维 expressive 空间中,沿着低维紧凑流形进行的动力学过程。

图 2 无论提示词如何变化,无论模型规模大小,这种低维结构普遍存在。以及静态词嵌入的高维与推理轨迹的低维对比

只有“低维”还不够,还要保持信息不损失

  既然推理发生在低维流形上,是否意味着维度越低,推理能力越强?

  答案是否定的,因为有些模型虽然很低维,却并不聪明(图3A)。

  作者发现,部分模型虽然轨迹收缩得很厉害,但信息也一起塌掉了。它们进入了一种“刚性推理”或“退化坍缩”的状态,即轨迹很稳定,但没有真正的信息流动,像一条“死掉的轨迹”。

图 3 A:本征维度低,不总是表现好。B:推理流形信息量随着层数加深而快速增加。

  因此,论文提出了第二个关键原则:非退化信息保持(Non-degenerate Information Preservation)。

  作者定义了信息体积(Information Volume, V),用于衡量推理流形内部保留了多少有效结构。

  结果令人惊讶:

  • 随着网络加深,内在维度(ID)在下降(去噪)。
  • 但信息体积(V)却在上升(保留有效结构,图3B)。

  这非常反直觉,因为维度的降低往往带来巨大的信息损失。这说明,真正的 Reasoning 不是简单降维,而是在受约束的流形中,保持高密度的信息组织。模型在压缩噪声的同时,放大了与任务相关的概念变化。图 4 清晰地展示了这一点:高性能模型并非分布在单一轴线上,而是密集聚集在一个“低维度 + 高信息量”的狭窄区域内。偏离这个区域的模型,要么过于松散(Diffuse),要么过于退化(Degenerate),表现均不佳。

图 4 三维空间展示模型分布,高性能模型集中在低维、高信息量的区域

第三个支柱:世界表达能力

  即使低维结构存在、信息量足够,模型仍可能不稳定。为什么?

  因为世界表达空间(World Expressivity)不够大。

  作者测量了模型静态词汇嵌入(Vocabulary Embedding)的内在维度,定义为 D world。它代表模型对“世界概念”的基础表达能力,决定了模型在面对多样化概念时,是否有足够的“空间”来承载信息。表达能力强的模型,在面对复杂刺激时,推理流形更稳定(图5)。

图 5 逐渐增加刺激的多样性,推理流形的本征维度变化曲线。

  研究发现: 真正强的模型,同时满足两个看似矛盾的条件:

  1. 外部世界表示:高维( D world 大,能容纳 diverse 的概念)。
  2. 内部推理过程:低维( D stim 小,推理路径紧凑)。

  这意味着,推理并不是整个模型都变低维,而是在一个极高维的世界模型底座之上,动态涌现出低维的推理流形。

无需标签的“推理健康”诊断仪

  基于上述发现,团队提出了一个统一的、无标签的结构化诊断指标 H:

  这个指标的神奇之处在于:它完全不使用任何任务标签、正确答案或基准测试分数,仅从模型内部的几何和信息流动中计算得出。

  为了验证其有效性,研究者将该指标与多个独立推理基准(如 AIME'25, GPQA-Diamond, LiveCodeBench 等)进行了相关性分析。

  结果令人震惊: 在所有评估的基准测试中,诊断指标 与模型实际性能之间的 Spearman 秩相关系数均超过 0.9!

图 5B 展示诊断指标与各基准测试性能的高相关性柱状图

  这意味着,只要看一眼模型内部的动力学结构,我们就能准确预判它在数学、代码、科学推理等任务上的潜力,而无需标注大量的真实答案。

意义与展望

  这项研究为大模型的可解释性和评估带来了范式转移:

  1. 从“结果导向”到“过程导向”: 不再仅仅关注答案对错,而是关注推理过程是否在结构上是健康的。
  2. 解耦数据集偏差: 传统的基准测试容易受数据污染和对齐策略影响,而内部动力学诊断提供了更本质的模型能力视图。
  3. 指导模型开发: 未来的训练目标可以不仅仅优化 Loss,还可以引入对推理流形结构的约束,促使模型在训练中就形成更健康的推理动力学。

  这项研究的意义,可能远超评估本身。

  它第一次将“推理能力”从 Benchmark Engineering 的范畴,拉入了 Dynamical Systems Science(动力系统科学) 的视野。

  • 过去我们认为:智能是 brute force 的搜索,是符号的逻辑推演。
  • 现在我们发现:智能是高维系统中,自发涌现出的稳定、紧凑、非退化的低维信息流形。

  如果这一理论成立,未来大模型的训练范式可能会发生根本性转变:

  不再仅仅追求 RLHF 或 Preference Optimization 带来的分数提升,而是直接优化推理流形:

  • 控制 Manifold Geometry(流形几何结构)
  • 稳定 Trajectory Dynamics(轨迹动力学)
  • 防止 Information Collapse(信息坍缩)

  换句话说,未来的训练目标,将从“优化答案”变成“优化内部动力学结构”。

结语

  也许未来回头看,Transformer 架构最伟大的秘密,并不是 Attention 机制本身。

  而是它创造了一个足够高维的表达空间,使得复杂的语义表示能够自发涌现出可持续的、低维的推理动力学。

  真正的智能,可能不是“会做题”,而是一个复杂系统如何在混乱中建立秩序的能力。

本文转载自新浪财经, 作者:新浪财经, 原文标题:《 LLM推理机制被发现了?研究发现所有大模型都会坍缩到低维空间 》, 原文链接: http://m.163.com/dy/article/KT8Q33UJ05568W0A.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅