Anthropic研究员放话:AI模型像"平行宇宙"

Anthropic Fellows项目揭示AI模型的“人格分裂”现象

　　Anthropic的Fellows项目最近放出一项新研究，专门用来扒开AI模型的“人格分裂”。他们发现，同一个问题扔给不同模型，得到的回答可能像来自两个平行宇宙——不是对错之分，是行为模式根本对不上。

行为差异表面化技术：量化模型“性格”

　　研究团队搞了个新方法，叫“行为差异表面化技术”。说白了，就是让模型在受控环境下反复做同一类任务，然后记录它们“下意识”的选择偏好。比如给一段有歧义的法律条文，有的模型倾向严格解释，有的则自动补全漏洞，这种差异以前很难量化。

我们以为模型只是在学知识，结果发现它们还在偷偷形成'性格'。

　　项目负责人之一的Miles Turpin在博客里写了一句挺扎心的：「我们以为模型只是在学知识，结果发现它们还在偷偷形成'性格'。」这种性格不是训练时写进去的，是参数规模、微调数据、甚至随机种子共同发酵的产物。

模型间行为分歧高达300%

　　测试覆盖了Claude系列和多个开源模型。数据显示，在涉及价值判断的场景中，模型间的行为分歧度能达到300%以上——同一个伦理困境，一个选牺牲1人救5人，另一个直接拒绝作答，且双方都能自圆其说。

企业需警惕“模型一致性”缺失

　　这项研究没给“哪种性格更好”下结论，只是把差异摊在桌上。但对用AI做决策的企业来说，这相当于提醒：你雇的不是一个“标准答案生成器”，是一堆各有脾气的外包员工。有早期用户反馈，看完报告后第一件事是回去检查自家产品的“模型一致性”设置——结果发现根本没这选项。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议