智算多多联系我们


关注我们

公众号

视频号
隐私协议用户协议
◎ 2025 北京智算多多科技有限公司版权所有京ICP备 2025150592号-1
谈及大模型落地垂直领域,RAG技术早已占据不可撼动的地位。通俗来讲,RAG就像是为大模型配备了一座随身外部知识库,遇到模糊不清的问题、专业性极强的知识点,模型无需依赖自身有限的预训练记忆,而是实时检索外部资料,边查证边作答,最大限度降低幻觉出错率,这也是它能牢牢占据金融、医疗等高精准度赛道的核心原因。
与之相对,合成数据训练,一直被视作RAG的辅助手段。业内普遍认为,依靠合成数据微调的模型,知识储备有限、性能提升存在天花板,即便大量堆砌数据、更换更强的生成模型,效果也始终无法赶超RAG,两者之间仿佛存在一道难以逾越的鸿沟。
这支顶尖团队最初也遭遇了同样的瓶颈。在多轮测试中,单纯使用合成问答对、或是仅用合成文档训练模型,性能提升都极为缓慢,即便加大数据投放量,效果也会快速触顶,甚至比成熟RAG方案低4.6%。
经过反复复盘实验,团队终于找准了问题症结:
单一类型的合成数据训练,只能让模型习得片面能力,无法实现知识与能力的融合。
合成问答对擅长训练模型的推理逻辑、知识调用技巧,却无法让模型牢牢掌握专业细节;