智算多多联系我们


关注我们

公众号

视频号
隐私协议用户协议
◎ 2025 北京智算多多科技有限公司版权所有京ICP备 2025150592号-1
国家知识产权局信息显示,北京智谱华章科技股份有限公司申请一项名为“一种大语言模型强化学习数据的生成方法、装置及存储介质”的专利,公开号CN121745204A,申请日期为2025年11月。
专利摘要显示,本发明公开了一种大语言模型强化学习数据的生成方法、装置及存储介质,包括:基于训练任务文本生成结构化的第一强化学习数据集;识别第一强化学习数据集中的难例样本和错误推理链,并基于难例样本和错误推理链重新生成第二强化学习数据集;对第二强化学习数据集中的第一样本进行质量评估,得到各第一样本的第一综合奖励分值;基于第一综合奖励分值对各第一样本进行自动筛选,得到第三强化学习数据集;确定样本调整策略,并基于样本调整策略从第三强化学习数据集中确定第四强化学习数据集。本发明实现了从静态数据构建到动态自优化的转变,构建了高质量强化学习数据集,从而提高了模型训练效率,增强了模型的泛化能力和推理能力。
北京智谱华章科技股份有限公司,成立于2019年,位于北京市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本4458.4309万人民币。通过大数据分析,该公司共对外投资了26家企业,参与招投标项目274次,拥有商标信息286条,专利信息252条,以及行政许可6个。