当前位置: 首页 > 行业资讯 > 资讯详情

LLM推理机制被发现了？研究发现所有大模型都会坍缩到低维空间

发布日期：2026-05-19 来源：新浪财经作者：新浪财经浏览：2

Reasoning Manifold

论文题目：Reasoning emerges from constrained inference manifolds in large language models

第一作者：马彦彪

论文链接：https://arxiv.org/abs/2605.08142

论文项目链接：https://neofii.github.io/Reasoning-Manifold/

不再迷信 Benchmark 分数。研究发现：真正会推理的大模型，内部并非“乱想”，而是自发坍缩到一个极低维、高信息密度的“受约束空间”。一种全新的、基于内部动力学的“推理健康度”诊断法诞生。

我们一直在“误解”推理？

过去几年，评价 LLM 推理能力的方法非常粗暴：看 Benchmark。

GSM8K、MATH、GPQA、AIME、LiveBench……本质上都是在看最终答案。但作者指出，这里有一个巨大的盲区： Benchmark 只能看到“结果”，却看不到“内部过程”。

这就像看到一个学生做对了一道数学题。你不知道他是：

真正理解了逻辑？
还是背过了答案？
还是运气好蒙对的？
甚至是简单的 Pattern Matching（模式匹配）？

对于 LLM 同样如此。两个模型可能 Benchmark 分数差不多，但内部机制可能天差地别。一个可能是“真推理”，另一个可能只是“会考试”。类比测谎仪，它只关注人类说话时大脑的脑电状态，并不直接判断人类所说的话的真实性，如果把LLM比作人脑，那么是否可以用“类脑电”或者其他探测方式来判断大模型是否真的聪明。

震撼发现：推理是“自发坍缩”

为了揭开黑盒，研究者并没有关注模型最终输出了什么答案，而是盯着模型在生成每一个 token 时，内部隐藏状态（Hidden States）轨迹是如何演变的。

通过对 Qwen2.5/3、Gemma 3、DeepSeek-R1 等多个主流模型家族的深入分析，团队观察到一个惊人且一致的现象：

理论上，LLM 的隐藏状态维度极高（2048、4096 甚至更高）。如果推理是一种复杂的“搜索”，那么这些状态轨迹应该在高维空间中四处扩散、自由探索。

但实验结果完全相反。

研究者记录了模型生成每一个 Token 时，每一层最后一个 Token 的隐藏状态。他们发现：几乎所有大模型，在推理过程中，内部状态都会自发地“坍缩”到极低维的空间（图1）。

图 1 展示不同模型层间内在维度ID的快速下降

注意关键词：自发（Spontaneous）。这不是架构强行限制的 Bottleneck，也不是 PCA 降维，而是模型在推理时，自己把自由度收缩了。

随着层数加深：内在维度（Intrinsic Dimension, ID）快速下降。
最终稳定区域：很多模型最后甚至稳定在低于 10 维的区域。

这意味着，一个拥有几千维表示空间的大模型，在真正推理时，实际上只在一个极小的低维流形中运动。

更有趣的是：越强的模型（如 Qwen3、DeepSeek-R1、Gemma3），收缩越快，轨迹越稳定，流形越清晰。

这像极了高手解题：真正厉害的人，不是尝试更多可能，而是一开始就知道哪些方向是错的，迅速排除干扰，进入正确的逻辑子空间。

除此之外，作者还发现了以下现象：

普适性：无论提示词如何变化，无论模型规模大小，这种低维结构普遍存在（图2C）。
特异性：静态的词向量嵌入仍然保持高维（保留了对世界知识的丰富表达），但一旦进入推理动态，维度急剧压缩（图2B）。

这意味着，推理本质上是一个在高维 expressive 空间中，沿着低维紧凑流形进行的动力学过程。

图 2 无论提示词如何变化，无论模型规模大小，这种低维结构普遍存在。以及静态词嵌入的高维与推理轨迹的低维对比

只有“低维”还不够，还要保持信息不损失

既然推理发生在低维流形上，是否意味着维度越低，推理能力越强？

答案是否定的，因为有些模型虽然很低维，却并不聪明（图3A）。

作者发现，部分模型虽然轨迹收缩得很厉害，但信息也一起塌掉了。它们进入了一种“刚性推理”或“退化坍缩”的状态，即轨迹很稳定，但没有真正的信息流动，像一条“死掉的轨迹”。

图 3 A：本征维度低，不总是表现好。B：推理流形信息量随着层数加深而快速增加。

因此，论文提出了第二个关键原则：非退化信息保持（Non-degenerate Information Preservation）。

作者定义了信息体积（Information Volume, V），用于衡量推理流形内部保留了多少有效结构。

结果令人惊讶：

随着网络加深，内在维度（ID）在下降（去噪）。
但信息体积（V）却在上升（保留有效结构，图3B）。

这非常反直觉，因为维度的降低往往带来巨大的信息损失。这说明，真正的 Reasoning 不是简单降维，而是在受约束的流形中，保持高密度的信息组织。模型在压缩噪声的同时，放大了与任务相关的概念变化。图 4 清晰地展示了这一点：高性能模型并非分布在单一轴线上，而是密集聚集在一个“低维度 + 高信息量”的狭窄区域内。偏离这个区域的模型，要么过于松散（Diffuse），要么过于退化（Degenerate），表现均不佳。

图 4 三维空间展示模型分布，高性能模型集中在低维、高信息量的区域

第三个支柱：世界表达能力

即使低维结构存在、信息量足够，模型仍可能不稳定。为什么？

因为世界表达空间（World Expressivity）不够大。

作者测量了模型静态词汇嵌入（Vocabulary Embedding）的内在维度，定义为 D world。它代表模型对“世界概念”的基础表达能力，决定了模型在面对多样化概念时，是否有足够的“空间”来承载信息。表达能力强的模型，在面对复杂刺激时，推理流形更稳定（图5）。

图 5 逐渐增加刺激的多样性，推理流形的本征维度变化曲线。

研究发现：真正强的模型，同时满足两个看似矛盾的条件：

外部世界表示：高维（ D world 大，能容纳 diverse 的概念）。
内部推理过程：低维（ D stim 小，推理路径紧凑）。

这意味着，推理并不是整个模型都变低维，而是在一个极高维的世界模型底座之上，动态涌现出低维的推理流形。

无需标签的“推理健康”诊断仪

基于上述发现，团队提出了一个统一的、无标签的结构化诊断指标 H：

这个指标的神奇之处在于：它完全不使用任何任务标签、正确答案或基准测试分数，仅从模型内部的几何和信息流动中计算得出。

为了验证其有效性，研究者将该指标与多个独立推理基准（如 AIME'25, GPQA-Diamond, LiveCodeBench 等）进行了相关性分析。

结果令人震惊：在所有评估的基准测试中，诊断指标与模型实际性能之间的 Spearman 秩相关系数均超过 0.9！

图 5B 展示诊断指标与各基准测试性能的高相关性柱状图

这意味着，只要看一眼模型内部的动力学结构，我们就能准确预判它在数学、代码、科学推理等任务上的潜力，而无需标注大量的真实答案。

意义与展望

这项研究为大模型的可解释性和评估带来了范式转移：

从“结果导向”到“过程导向”：不再仅仅关注答案对错，而是关注推理过程是否在结构上是健康的。
解耦数据集偏差：传统的基准测试容易受数据污染和对齐策略影响，而内部动力学诊断提供了更本质的模型能力视图。
指导模型开发：未来的训练目标可以不仅仅优化 Loss，还可以引入对推理流形结构的约束，促使模型在训练中就形成更健康的推理动力学。

这项研究的意义，可能远超评估本身。

它第一次将“推理能力”从 Benchmark Engineering 的范畴，拉入了 Dynamical Systems Science（动力系统科学）的视野。

过去我们认为：智能是 brute force 的搜索，是符号的逻辑推演。
现在我们发现：智能是高维系统中，自发涌现出的稳定、紧凑、非退化的低维信息流形。

如果这一理论成立，未来大模型的训练范式可能会发生根本性转变：

不再仅仅追求 RLHF 或 Preference Optimization 带来的分数提升，而是直接优化推理流形：

控制 Manifold Geometry（流形几何结构）
稳定 Trajectory Dynamics（轨迹动力学）
防止 Information Collapse（信息坍缩）

换句话说，未来的训练目标，将从“优化答案”变成“优化内部动力学结构”。

结语

也许未来回头看，Transformer 架构最伟大的秘密，并不是 Attention 机制本身。

而是它创造了一个足够高维的表达空间，使得复杂的语义表示能够自发涌现出可持续的、低维的推理动力学。

真正的智能，可能不是“会做题”，而是一个复杂系统如何在混乱中建立秩序的能力。

本文转载自新浪财经，作者：新浪财经，原文标题：《 LLM推理机制被发现了？研究发现所有大模型都会坍缩到低维空间》，原文链接： http://m.163.com/dy/article/KT8Q33UJ05568W0A.html。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号