AI投毒:数字社会如何塑造“算法信任”

AI投毒：算法时代的信任危机

　　算法并非天然中立。AI投毒问题的真正挑战在于治理，而非单纯的技术修补。在算法时代，信任不应建立在对机器的盲目崇拜之上，而应建立在透明、责任与持续反思之上。

“投毒”这一概念通常与人体或自然环境相关。但如今，它正成为人工智能领域中一个日益严重的问题——在像ChatGPT和Claude这样的大型语言模型中，尤为突出。2025年10月，由英国人工智能安全研究院、艾伦·图灵研究所以及开发Claude的Anthropic联合开展的一项研究发现：在数百万条训练数据中，仅需插入大约250个恶意文件，就有可能在不被察觉的情况下对模型进行“投毒”。

什么是AI投毒

　　AI投毒是指通过对人工智能系统的训练数据、模型或运行环境进行恶意操纵，从而改变其行为或输出结果的一类攻击策略，通常被称为数据投毒攻击。机器学习模型的能力高度依赖训练数据，因此一旦攻击者篡改数据集、注入虚假或偏置样本，或者改变标签与特征分布，就可能导致模型学到错误模式，在实际应用中产生系统性偏差或错误决策。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议