智算多多联系我们

官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部
关注我们

公众号

视频号
◎2025 北京智算多多科技有限公司版权所有 京ICP备 2025150592号-1
京公网安备11010602202532号
京公网安备11010602202532号 在一次演示中,研究人员激活了一个“道德困境神经元”,原本中性的回答瞬间变成了电车难题式的反问;在另一次实验里,同一个工具把模型对是否披露AI误导行为的回答,从“否”翻转为“应披露”。这些场景来自旧金山初创公司Goodfire刚发布的工具Silico。该公司称,Silico能在训练阶段“看到”并调节神经元参数,从而把原本的黑箱变成可调的机器。本文将带你看清Silico如何运作、能做什么、不能做什么,以及普通企业为何要关心。
大型语言模型虽表现惊人,但内部机制模糊。黑箱带来三大现实风险:难以修复幻觉、不可预测的伦理判断、在医疗和金融等关键场景中的合规与安全隐患。当前只有少数前沿实验室能做深入的可解释性研究,普通企业和行业应用因此难以把控模型行为。模型出现偏差或选择性不披露,往往直接影响用户安全和企业声誉。
直观地说,把神经网络比作城市交通网,机械可解释性就是画出线路图并标出关键红绿灯与分流口。与传统的特征重要性或示例驱动不同,它关注“物理层面”的构件——单个或成组神经元、它们之间的通路和信息流,从而理解模型内部为何做出某种判断。
Silico由旧金山的Goodfire开发,目标是把训练从“炼金术”变为“精密工程”。它并非对所有模型都适用:只能在能访问参数的本地或开源模型上工作,对封闭商业模型则无直接权限。Goodfire宣称,通过把实验自动化和工具化,能让更多中小团队参与到模型设计与修正中来。
