RAG神话破灭?斯坦福顶尖团队新研究:合成数据训练效果反超,成本大降

被低估的合成数据：常年沦为配角，并非能力不足

谈及大模型落地垂直领域，RAG技术早已占据不可撼动的地位。通俗来讲，RAG就像是为大模型配备了一座随身外部知识库，遇到模糊不清的问题、专业性极强的知识点，模型无需依赖自身有限的预训练记忆，而是实时检索外部资料，边查证边作答，最大限度降低幻觉出错率，这也是它能牢牢占据金融、医疗等高精准度赛道的核心原因。

与之相对，合成数据训练，一直被视作RAG的辅助手段。业内普遍认为，依靠合成数据微调的模型，知识储备有限、性能提升存在天花板，即便大量堆砌数据、更换更强的生成模型，效果也始终无法赶超RAG，两者之间仿佛存在一道难以逾越的鸿沟。

这支顶尖团队最初也遭遇了同样的瓶颈。在多轮测试中，单纯使用合成问答对、或是仅用合成文档训练模型，性能提升都极为缓慢，即便加大数据投放量，效果也会快速触顶，甚至比成熟RAG方案低4.6%。

经过反复复盘实验，团队终于找准了问题症结：

单一类型的合成数据训练，只能让模型习得片面能力，无法实现知识与能力的融合。

合成问答对擅长训练模型的推理逻辑、知识调用技巧，却无法让模型牢牢掌握专业细节；

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议