智算多多联系我们

官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部
关注我们

公众号

视频号
◎2025 北京智算多多科技有限公司版权所有 京ICP备 2025150592号-1
专利摘要显示,本发明公开一种多智能体协同的档案大模型微调数据集构建方法及系统,涉及档案处理技术领域。针对档案文档中图像模糊、手写体识别困难、OCR误差高等问题,采用方案包括:获取不同类型档案文档的文本信息,经清洗与校验后输出,随后基于语义结构完成自然段落划分,将未超出字数阈值的段落作为一个字块,将超出字数阈值的段落按标点规则与字数阈值策略裁剪为多个子块。
针对每个子块,先通过问题生成智能体生成多个覆盖知识点的问题,再由答案搜索智能体基于原始文本信息,为生成的问题匹配语义一致的答案,形成问答对;对问答对进行匹配验证和质量评估,通过后,将问答对输出保存至数据集,并整理成标准格式,作为大模型微调数据集使用。
