Goodfire发布Silico工具，可在训练时直接操控大模型神经元

在一次演示中，研究人员激活了一个“道德困境神经元”

在一次演示中，研究人员激活了一个“道德困境神经元”，原本中性的回答瞬间变成了电车难题式的反问；在另一次实验里，同一个工具把模型对是否披露AI误导行为的回答，从“否”翻转为“应披露”。这些场景来自旧金山初创公司Goodfire刚发布的工具Silico。该公司称，Silico能在训练阶段“看到”并调节神经元参数，从而把原本的黑箱变成可调的机器。本文将带你看清Silico如何运作、能做什么、不能做什么，以及普通企业为何要关心。

为什么这是个问题

大型语言模型虽表现惊人，但内部机制模糊。黑箱带来三大现实风险：难以修复幻觉、不可预测的伦理判断、在医疗和金融等关键场景中的合规与安全隐患。当前只有少数前沿实验室能做深入的可解释性研究，普通企业和行业应用因此难以把控模型行为。模型出现偏差或选择性不披露，往往直接影响用户安全和企业声誉。

什么是“机械可解释性”

直观地说，把神经网络比作城市交通网，机械可解释性就是画出线路图并标出关键红绿灯与分流口。与传统的特征重要性或示例驱动不同，它关注“物理层面”的构件——单个或成组神经元、它们之间的通路和信息流，从而理解模型内部为何做出某种判断。

Goodfire与Silico

Silico由旧金山的Goodfire开发，目标是把训练从“炼金术”变为“精密工程”。它并非对所有模型都适用：只能在能访问参数的本地或开源模型上工作，对封闭商业模型则无直接权限。Goodfire宣称，通过把实验自动化和工具化，能让更多中小团队参与到模型设计与修正中来。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号