前阿里千问技术负责人林俊旸在离职后发表长文指出,AI大模型的核心竞争正从“推理型思考”转向“智能体思考”。他回顾了以OpenAI o1和DeepSeek-R1为代表的推理模型浪潮,强调行业已进入强化学习后训练新阶段,数学与代码成为优化模型正确性的关键。林俊旸分析了融合指令与思考模式的困难,指出两者在目标与数据分布上存在根本冲突,导致Qwen团队在Qwen3尝试失败后,于2507版本推出分离的指令与思考模型。他预测未来将由具备环境交互与持续迭代能力的智能体主导,智能体强化学习要求训练与推理解耦,并带来奖励作弊等新挑战。未来竞争壁垒将转向高质量环境设计、防作弊机制和多智能体协同等系统工程能力。