智算多多联系我们


关注我们

公众号

视频号
隐私协议用户协议
◎ 2025 北京智算多多科技有限公司版权所有京ICP备 2025150592号-1
算法并非天然中立。AI投毒问题的真正挑战在于治理,而非单纯的技术修补。在算法时代,信任不应建立在对机器的盲目崇拜之上,而应建立在透明、责任与持续反思之上。
“投毒”这一概念通常与人体或自然环境相关。但如今,它正成为人工智能领域中一个日益严重的问题——在像ChatGPT和Claude这样的大型语言模型中,尤为突出。2025年10月,由英国人工智能安全研究院、艾伦·图灵研究所以及开发Claude的Anthropic联合开展的一项研究发现:在数百万条训练数据中,仅需插入大约250个恶意文件,就有可能在不被察觉的情况下对模型进行“投毒”。
AI投毒是指通过对人工智能系统的训练数据、模型或运行环境进行恶意操纵,从而改变其行为或输出结果的一类攻击策略,通常被称为数据投毒攻击。机器学习模型的能力高度依赖训练数据,因此一旦攻击者篡改数据集、注入虚假或偏置样本,或者改变标签与特征分布,就可能导致模型学到错误模式,在实际应用中产生系统性偏差或错误决策。