智算多多



行为主义心理学早已证明「试错是生物学习的本能」,但在早期AI界,主流观点坚信「智能=精确的逻辑推理与监督学习」,而无明确标签的试错学习是「不严谨的野路子」,既无法被形式化,更难被实现工程落地。
1898年,桑代克通过「猫的迷笼实验」提出效果律:带来利好结果的行为会被强化,带来负面结果的行为会被弱化——这是强化学习最本源的思想雏形。1948年维纳的《控制论》为「反馈闭环」提供了理论根基;1954年,明斯基造出了史上第一个人工强化学习系统SNARC,用硬件实现了老鼠走迷宫的试错学习,证明了试错机制可以在人工系统中复现。
1957年,理查德·贝尔曼提出马尔可夫决策过程(MDP)与贝尔曼方程,第一次为「序贯决策问题」建立了严谨的数学框架:把「智能体的试错学习」,转化为「最大化长期累积奖励的最优策略求解」。这一突破让RL彻底脱离了心理学的经验范畴,拥有了坚实的数学根基。但致命局限随之而来:基于贝尔曼方程的动态规划,需要完全已知的环境模型,且计算复杂度随状态空间指数级增长,维度灾难直接锁死了它的实际应用。
1959年,IBM的阿瑟·塞缪尔在跳棋程序中首次提出「强化学习」一词,用时序差分(TD)的雏形实现了自学习,击败了人类跳棋冠军,第一次证明了RL的工程可行性。1980年代,被称为「RL之父」的理查德·萨顿与安德鲁·巴托,系统性构建了时序差分(TD)学习框架,完美融合了蒙特卡洛方法的「无模型」与动态规划的「自举」优势,解决了「无需完整轨迹、无需已知环境」的核心难题。1989年,克里斯·沃特金斯提出Q-Learning算法,严格证明了离策略场景下的收敛性,为无模型RL画上了理论闭环,现代强化学习的学科框架正式成型。
这个阶段的RL,是「理论上的天才,工程上的孤儿」。萨顿与巴托在学界的边缘化坚守,终于让RL从心理学的附属品、最优控制的分支,成长为独立的学科。但表格型RL只能处理离散、小规模的状态空间,面对图像、语音等高维真实输入完全无能为力。函数近似与收敛性的核心矛盾,将RL拖入了长达十余年的寒冬。
表格型RL的收敛性理论完美无缺,但真实世界的状态是无限连续的,必须用函数近似(如神经网络)拟合价值函数。然而RL的三大核心要素「函数近似+自举+离策略」组合在一起,会直接打破算法的收敛性保证,甚至导致彻底发散。RL陷入了「要么理论完美但毫无用处,要么能用但理论崩塌」的两难绝境。
1992年,杰拉尔德·特萨罗的TD-Gammon横空出世,将TD学习与单隐层神经网络结合,在西洋双陆棋上击败了人类世界冠军,这是RL与神经网络的第一次成功结合,学界一度以为RL的春天已经到来。但很快,现实泼了冷水:这个成功完全无法复现——在围棋、机器人控制等更复杂的场景中,神经网络+RL要么训练完全崩溃,要么效果远不如传统表格算法,甚至连最基础的收敛都无法保证。
主流AI界对RL的热情迅速冷却,顶级会议上RL论文占比不足5%,大量研究者转行。但坚守者们没有放弃,他们从根源上重构RL的优化逻辑:2000年前后,萨顿等人证明了策略梯度定理,将RL的优化目标从「拟合价值函数」转向「直接优化策略本身」,从根源上避开了价值函数近似的误差累积,Actor-Critic框架正式成型;2002-2005年,自然梯度、LSTD、最小二乘策略迭代等方法相继提出,针对性解决策略梯度方差大、步长难以选择的核心痛点,为后续深度强化学习的爆发埋下了理论伏笔。
这个阶段的RL,像个身怀绝世理论却无处施展的天才。算力的局限让深层神经网络无法落地,浅层函数近似无法处理高维输入,人工特征又彻底限制了RL的通用性。RL在寒冬中等待契机—而2012年AlexNet在ImageNet上的封神,深度学习的全面爆发,终于为RL带来了破局的曙光。
深度学习解决了「高维原始输入的特征提取」难题,RL解决了「序贯决策的长期优化」问题,但两者的结合天生就是不稳定的:深度学习的非凸优化,叠加RL的自举与离策略特性,会导致价值函数严重过拟合、Q值爆炸、训练彻底崩溃;同时,策略梯度算法存在高方差、低稳定性、步长难调三大顽疾,连续动作空间的探索效率极低。TD-Gammon的失败近在眼前,所有人都在问:深度与RL的结合,到底能不能走通?如何解决训练稳定性、样本效率、动作空间适配三大核心难题?
这一阶段是深度强化学习(DRL)的黄金六年,所有经典算法均围绕「稳定训练、降低方差、提升效率、适配场景」展开,每一种算法都是对上一代缺陷的针对性修正,形成了清晰的技术演进链:DQN(价值-based,离散动作)→ TRPO/PPO(策略-based,稳定优化)→ DDPG/TD3/SAC(Actor-Critic,连续动作)→ AlphaGo/AlphaZero(博弈融合)。
核心痛点:传统Q-Learning用表格存储Q值,无法处理图像等高维状态;直接用神经网络拟合Q值,会出现时序相关性(样本非独立同分布)、目标移动(自举导致优化目标不停波动)两大致命问题,训练直接发散。
创新设计:
成果与局限:
49款Atari游戏全面超越人类专业玩家,标志DRL正式诞生;但仅适用于离散动作空间,连续动作(如机器人关节控制)无法枚举;存在Q值过估计、探索效率低、易陷入局部最优等问题。
传统策略梯度梯度方差极大,训练震荡剧烈;一旦策略更新步长过大,会导致策略性能断崖式下跌,甚至彻底崩溃,且无理论保证单调性提升。
核心创新:提出信任区域策略优化(TRPO, trust region policy optimization),用KL散度约束限制新旧策略的差异,保证策略更新是「小步稳健迭代」,从数学上证明策略性能单调非递减。
核心思想:在新旧策略KL散度不超过阈值的约束下,最大化策略期望奖励,避免激进更新毁掉模型;
技术难点:采用共轭梯度法+线搜索求解带约束的优化问题,引入重要性采样修正离策略偏差;
优势:训练稳定性极强,适用于高维连续动作空间,理论收敛性完备;
缺陷:计算复杂度极高(二阶优化),显存占用大,训练速度慢,难以工程化落地。
核心痛点:TRPO效果好但太笨重,无法适配大规模训练和工程场景,急需一款「简单、稳定、高效」的通用策略算法。
颠覆性简化:抛弃TRPO复杂的KL约束,PPO(近端策略优化,proximal policy optimization)改用裁剪代理目标函数,用一阶优化实现近似信任区域效果,代码极简、训练超快、兼容性拉满,至今仍是DRL工业界标配。
核心设计:
裁剪比率约束:定义重要性采样比率,将其限制在[1-ε,1+ε]区间(ε通常取0.2),防止策略更新过猛;
代理损失函数:
其中At是优势函数(衡量动作优于平均策略的程度);
兼容多场景:支持在线/离线训练、离散/连续动作、多核并行采样,适配大模型、机器人、游戏等几乎所有DRL场景。
优势对比:相比TRPO,训练速度提升10-100倍,显存占用大幅降低,效果接近甚至超越TRPO;解决了策略梯度高方差、不稳定的核心痛点。
这三个算法是深度强化学习针对连续动作空间的完整演进闭环,全称与核心定位如下,它们的诞生彻底解决了「RL 如何走进真实物理世界」的核心难题 —— 机器人控制、自动驾驶、工业优化等场景的动作输出都是连续值(如机械臂的关节角度、油门刹车的力度),而此前的 DQN 只能处理离散动作,传统策略梯度在连续空间采样效率极低,这条演进链正是 RL 从虚拟游戏走向真实世界的核心跳板。
全称 Deep Deterministic Policy Gradient,DDPG 的理论根基是 2014 年 DeepMind 团队提出的DPG(确定性策略梯度定理),DPG 定理第一次严格证明:确定性策略的梯度,等于 Q 函数对动作的梯度的期望,无需对动作空间做积分,无需大量采样,计算量直接下降几个数量级。
DDPG 采用经典的 Actor-Critic 双网络架构,两套网络均配套「在线网络 + 目标网络」:
DDPG 解决了连续动作空间的从 0 到 1,但天生带有三大绝症,导致它的训练被学界戏称为「炼丹术」——10 次训练 9 次崩,收敛全靠运气:
全称 Twin Delayed Deep Deterministic Policy Gradient,TD3 没有推翻 DDPG 的确定性策略框架,而是精准针对 DDPG 的三大绝症,开出了三副针对性的药方,把 DDPG 的训练稳定性和性能拉到了确定性策略框架的天花板。
TD3 让确定性策略算法从「炼丹术」变成了「可复现的工程方法」,至今仍是连续控制的经典基线,但它始终没有跳出 DDPG 的底层逻辑:追求唯一的确定性最优动作。这意味着它依然无法解决确定性策略的天生短板:探索能力不足、对环境噪声敏感、泛化性差,在非平稳、高噪声的真实世界场景里,依然很容易失效。
全称 Soft Actor-Critic,SAC 与 TD3 同期诞生,但走了一条完全不同的路:它没有修补 DDPG 的缺陷,而是直接推翻了「确定性策略」的底层框架,引入最大熵强化学习(Maximum Entropy RL, MERL),把 RL 的优化目标从「最大化累积奖励」,重构为「最大化累积奖励 + 最大化策略熵」,从根源上解决了连续控制的所有核心痛点。
「软」的本质,是拥抱不确定性——最大熵优化目标。
核心逻辑:既要拿到最优的结果,也要保持最大的选择多样性。奖励保证「利用」,熵保证「探索」,从数学上完美解决了探索 - 利用的平衡难题。
随机策略架构,告别确定性动作
SAC 的 Actor 网络不再输出单一的确定性动作,而是输出动作的高斯分布(均值和方差),每次执行动作都从分布中采样。配合最大熵目标,策略会主动探索更多可能的动作,不会困在局部最优里,同时对环境噪声、分布偏移的鲁棒性大幅提升。
双 Critic + 软更新,极致稳定
沿用了 TD3 的双 Critic 设计抑制过估计,但抛弃了硬同步的目标网络,改用软更新:每一步训练都用极小的系数(如 0.005)平滑更新目标网络,而非每隔 N 步硬同步,让训练过程更平滑、更稳定,彻底告别了 DDPG 的发散问题。
核心痛点:围棋状态空间高达10^170,纯DRL无法穷举,需要结合博弈搜索提升决策精度。
AlphaGo创新架构:
AlphaZero进化:抛弃人类棋谱,纯自我博弈学习,统一围棋、国际象棋、将棋三大博弈场景,证明DRL无需人类先验知识即可超越人类顶尖水平,彻底打破「监督学习依赖数据」的局限。
| 算法 | 类型 | 动作空间 | 核心优势 | 主要局限 |
|---|---|---|---|---|
| DQN | Value-based | 离散 | 端到端像素输入,样本效率高 | 仅支持离散动作,Q值过估计 |
| TRPO | Policy-based | 连续/离散 | 策略单调提升,理论完备 | 计算复杂,训练慢 |
| PPO | Policy-based | 连续/离散 | 训练快,稳定,工业首选 | 仍有轻微策略退化风险 |
| DDPG | Actor-Critic | 连续 | 首个连续控制DRL算法 | 训练极不稳定,探索差 |
| TD3 | Actor-Critic | 连续 | 稳定,抗过估计 | 仍为确定性策略 |
| SAC | Actor-Critic | 连续 | 最大熵探索,鲁棒性强 | 超参敏感,训练稍慢 |
这个阶段的RL,是「神坛与泥潭并存」。一方面,AlphaGo、OpenAI Five(Dota2)、AlphaStar(星际争霸)接连封神,DRL被视为通用人工智能的核心希望;另一方面,真实世界落地一败涂地:样本效率极低,需要千万级环境交互才能学会简单任务;模拟器与真实世界鸿沟(Sim2Real)难以跨越;奖励函数设计困难,奖励黑客(智能体钻奖励漏洞而非完成任务)频发,泛化性极差。更核心的矛盾浮出水面:DRL的目标是「最大化单一、明确的奖励函数」,但真实世界的人类需求,是复杂、模糊、多维度甚至相互矛盾的。RL如何对齐人类的复杂意图,成为下一个时代的核心命题。
大语言模型(LLM)拥有海量知识与超强生成能力,但其输出是「概率上的通顺」,而非「人类真正想要的答案」。监督学习无法穷举所有人类偏好,也无法为「有用、无害、诚实」设计精确的奖励函数。所有人都在问:RL能不能用人类的反馈作为隐式奖励信号,让大模型对齐人类的复杂意图?
2017年,OpenAI与DeepMind联合提出「基于人类偏好的深度强化学习」;2022年,OpenAI的InstructGPT(GPT-3.5)正式将RLHF(基于人类反馈的强化学习)推向世界,ChatGPT的爆火,让RLHF成为大模型对齐的工业标准,RL的范式被彻底重构:
传统RL:智能体与物理环境交互,状态是环境观测,动作是智能体行为,奖励是环境给出的数值。
RLHF中的RL:智能体是大语言模型,环境是文本生成上下文,状态是输入Prompt,动作是生成的Token,奖励是人类对输出的偏好评分。
RLHF的三段式流程,完美解决了「无法为人类偏好写奖励函数」的难题:
RLHF的爆发,也带来了新的致命冲突:标注成本极高、标注者偏见会被模型学习、大模型上PPO训练极易崩溃、「对齐税」(对齐越好,模型推理能力越差)、奖励黑客(模型讨好奖励模型而非真正理解人类意图)。围绕这些矛盾,RL的进化全面开启:
这个阶段的RL,从「游戏里的孤胆英雄」,变成了「大模型的灵魂导师」,从机器学习的小众分支,成长为通用人工智能的核心组件。但新的矛盾再次出现:单一个体的反馈,始终无法解决「群体共识」的问题,我们需要的不是对齐某个人的偏好,而是对齐整个社区、整个社会的集体智慧。同时,RL算法始终是人类手工设计的,我们能不能让AI自己创造出更好的RL算法?
当前所有DRL算法(DQN、PPO、SAC等)均为人类手工设计,受限于研究者的经验、直觉和认知边界,无法适配超复杂环境、大模型训练、多智能体协同等场景;手工RL算法存在样本效率低、泛化性差、调参成本高三大顽疾,且难以针对新任务自适应优化。与此同时,单一个体反馈的对齐范式无法捕捉群体共识,RL亟需突破「人工设计算法」的瓶颈,实现算法自主发现、自适应进化。
DiscoRL是DeepMind于2026年发表在《Nature》正刊的颠覆性工作,全称Discovery of Reinforcement Learning,核心目标是让AI自动发现、设计、演化出超越人类手工设计的RL算法,彻底摆脱人类对RL算法的手工干预,实现RL的自主进化。这是RL领域从「人工设计」到「机器自主创新」的里程碑式跨越。
https://www.nature.com/articles/s41586-025-09761-x
DiscoRL采用「内环任务执行闭环 + 外环算法进化闭环」的双环嵌套自主进化系统。这套架构的核心本质是:内环负责「在环境中试错学习」,外环负责「从试错结果中学习如何更好地学习」,两个环持续嵌套循环,实现算法的自主迭代与进化。
核心定位:整个系统的「执行终端与数据生产单元」,对应传统 RL 中的智能体,但区别在于:它不使用固定的手工算法,而是以外环进化出的算法规则为基础,完成与环境的交互、任务执行,同时为外环的算法进化提供「试错数据」与「优劣评判标准」。
核心组成与运行逻辑:
核心定位:整个系统的「进化大脑」,也是 DiscoRL 最核心的颠覆性设计。它完全替代了人类 RL 专家的角色,负责从内环的交互数据中,自主发现、优化、迭代 RL 算法的核心规则,实现「算法的自主进化」。
核心组成与运行逻辑:
| 维度 | 传统RL/DRL | DiscoRL(自主进化RL) |
|---|---|---|
| 算法设计者 | 人类专家 | AI元网络自主进化 |
| 核心目标 | 优化策略/价值函数 | 优化「RL算法本身」 |
| 先验知识依赖 | 高度依赖人类RL理论 | 无任何先验,从零进化 |
| 泛化能力 | 单场景最优,跨场景差 | 多场景自适应,泛化极强 |
| 迭代周期 | 数年/代 | 数天/代 |
70年的演化史,强化学习始终在回答一个最核心的问题:智能,到底如何从与世界的交互、与群体的反馈中,不断学习、进化、对齐?
从「用数学定义试错本能」,到「用神经网络感知世界」,再到「用人类反馈对齐意图」,最终到「用群体智慧实现算法自主进化」,RL的每一次飞跃,都源于对前一代核心矛盾的直面与破局。未来的RL,不再仅仅是一个机器学习算法,它将成为通用人工智能的「进化引擎」——让AI不仅能学习人类的知识,更能学会人类的价值观,实现群体智慧的自主演化,最终走向真正的通用智能。