智算多多联系我们


关注我们

公众号

视频号
隐私协议用户协议
◎ 2025 北京智算多多科技有限公司版权所有京ICP备 2025150592号-1
专利摘要显示,本发明提供一种基于多级协同的图像数据集构建方法、系统和模型训练方法,所述图像数据集构建方法包括:获取初始图像对集合;分别估算源图像和目标图像中前景对象对应的像素点的平均深度以及背景的一致性;基于估计得到的平均深度和背景一致性结果,从初始图像对集合中筛选满足深度变化条件和背景一致性条件的图像对,形成几何级图像对集合;基于大型视觉语言模型,从几何级图像对集合中筛选出前景对象存在可被感知深度差异的图像对形成语义级图像对集合,并生成筛选出的图像对对应的自然语言文本;基于平均深度确定图像对的深度差异量化标签,将自然语言文本作为深度差异文本标签,从而得到图像数据集。
本发明能够保证规模化生产且提升样本质量。