智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


要理解 CellForge 做了什么,首先要了解“虚拟细胞建模”(Virtual Cell Modeling)这个领域。简单来说,它的目标是在计算机中模拟一个细胞,并预测当这个细胞遭遇“扰动”时会发生什么。
这些“扰动”可以是一次基因敲除、一种新药的刺激,或是细胞因子的作用。通过单细胞 RNA 测序(scRNA-seq)等技术,科学家能获取细胞在扰动前后数万个基因的表达数据,海量而复杂。
传统上,针对每一个新数据集、新扰动类型,研究人员都需要结合领域知识,手动设计或挑选合适的机器学习模型架构,过程繁琐且高度依赖专家经验。这就像为每一位病人量身定制一套完全不同的诊断算法,效率低下且难以推广。
CellForge 的核心创新,在于它采用了“多智能体”(Multi-Agent)协作框架。可以理解为这是一个高度专业化的 AI 科研团队,而不是一个单一的、试图解决所有问题的“超级 AI”。
这个团队分工明确,配合默契——
通过多轮辩论,方案不断融合、改进,直到所有专家对某个设计达成高度共识。这个过程能催生出人类专家可能想不到的创新架构,例如论文中提到的、用于处理时间动态数据的“轨迹感知编码器”。
这个框架的魅力在于,它不是从一堆预设的模板中做选择,而是通过智能体之间基于知识的辩论与协作,真正从零开始“创造”出一个新的、针对特定任务优化的模型。这超越了简单的超参数调优,实现了方法论层面的创新。
研究团队在六个公开的单细胞扰动数据集上对 CellForge 进行了全面测试,任务涵盖基因敲除、药物处理、细胞因子刺激等多种类型,数据模态也包括了 scRNA-seq(用于检测基因表达情况)、scATAC-seq(用于分析染色质可及性)、CITE-seq(同时检测 RNA 和蛋白质)等。
在已知方法较多的领域(例如基因敲除的 scRNA-seq 数据),CellForge 自动设计的模型表现出了强大的竞争力。在 Adamson 和 Norman 这两个经典数据集上,其模型在预测扰动后基因表达的关键指标(例如 MSE、PCC、R²)上,与 CPA、scGPT、Biolord 等人类设计的顶尖模型不相上下,甚至在部分指标上实现超越。
在缺乏成熟方法的“无人区”,CellForge 的价值更加凸显。例如,在预测染色质可及性变化(scATAC-seq 数据)或蛋白质表达变化(CITE-seq 数据)的任务上,由于没有现成的专用模型,传统的基线方法(例如线性回归、随机森林)表现平平。而 CellForge 能够自主设计出适应这些独特数据模态的定制化架构,取得了显著的性能提升。这证明了其方法具备强大的泛化能力和探索性。
一个好的模型不仅要预测得准,还要让人类理解其决策。CellForge 的设计也考虑到了生物学的可解释性。
评估显示,其模型能有效识别出在扰动中真正发生关键变化的基因(差异表达基因),并且预测的细胞状态在整体结构上与真实生物学图谱保持一致。通路富集分析也证实,模型捕捉到的信号与已知的生物学通路(例如 NF-κB、p53 信号通路)相符。
CellForge 代表了一种科研范式的转变:从人类指导 AI 执行单一任务,转向 AI 自主管理从问题分析到方法实现的全流程。它为计算生物学,乃至更广泛的科学领域,提供了一条自动化方法开发的新路径。
当然,这条路并非一片坦途。论文也诚实地指出了当前局限:
研究团队在论文中分享了一个鼓舞人心的试点案例:两位完全不了解该框架的湿实验室研究人员,仅凭入门教程,就在大约一小时内,成功使用 CellForge 为他们的实际研究问题(免疫治疗和心血管疾病建模)自动设计并训练出了有效的预测模型。
这预示着,此类工具有望极大地降低先进计算建模的门槛,让更多生物学家能将精力聚焦于科学问题本身,而非复杂的编程与算法设计。
CellForge 就像一座刚刚点燃炉火的“锻造厂”,只是,它锻造的不是钢铁,而是探索生命奥秘的智能工具。它的出现告诉我们,AI 在科研中的角色,正从得力的“助手”,向富有创造力的“合作者”悄然演进。
