首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们

Anthropic研究员放话:AI模型像"平行宇宙"

发布日期:2026-04-05 来源:网易作者:网易

Anthropic Fellows项目揭示AI模型的“人格分裂”现象

  Anthropic的Fellows项目最近放出一项新研究,专门用来扒开AI模型的“人格分裂”。他们发现,同一个问题扔给不同模型,得到的回答可能像来自两个平行宇宙——不是对错之分,是行为模式根本对不上。

行为差异表面化技术:量化模型“性格”

  研究团队搞了个新方法,叫“行为差异表面化技术”。说白了,就是让模型在受控环境下反复做同一类任务,然后记录它们“下意识”的选择偏好。比如给一段有歧义的法律条文,有的模型倾向严格解释,有的则自动补全漏洞,这种差异以前很难量化。

我们以为模型只是在学知识,结果发现它们还在偷偷形成'性格'。

  项目负责人之一的Miles Turpin在博客里写了一句挺扎心的:「我们以为模型只是在学知识,结果发现它们还在偷偷形成'性格'。」这种性格不是训练时写进去的,是参数规模、微调数据、甚至随机种子共同发酵的产物。

模型间行为分歧高达300%

  测试覆盖了Claude系列和多个开源模型。数据显示,在涉及价值判断的场景中,模型间的行为分歧度能达到300%以上——同一个伦理困境,一个选牺牲1人救5人,另一个直接拒绝作答,且双方都能自圆其说。

企业需警惕“模型一致性”缺失

  这项研究没给“哪种性格更好”下结论,只是把差异摊在桌上。但对用AI做决策的企业来说,这相当于提醒:你雇的不是一个“标准答案生成器”,是一堆各有脾气的外包员工。有早期用户反馈,看完报告后第一件事是回去检查自家产品的“模型一致性”设置——结果发现根本没这选项。

本文转载自网易, 作者:网易, 原文标题:《 Anthropic研究员放话:AI模型像"平行宇宙" 》, 原文链接: https://www.163.com/dy/article/KPO3PDS105561FZH.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐