首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们
为您找到符合条件的筛选结果 29
人脸人像数据集
人像卡通化提供测试数据,涵盖了人脸及人像图片。该数据集由100个人像样本组成,其中包括70张人脸图像,这些图像来源于CelebA数据库,以及30张全身人像图片,这些全身人像图片均为自由版权资源。
法律
DISC-法律-SFT 数据集 中文法律智能系统需要结合多种能力,包括法律文本理解和生成。为此,我们构建了一个高质量的监督微调数据集,称为 DISC-法律-SFT,涵盖了不同的法律场景,如法律信息提取、法律判决预测、法律文件摘要和法律问题回答。DISC-法律-SFT 包含两个子集,即 DISC-法律-SFT-Pair 和 DISC-法律-SFT-Triplet。前者旨在向LLM引入法律推理能力,而后者则有助于提升模型利用外部法律知识的能力
星穹铁道语音数据集
星穹铁道语音数据集
SA1B-描述-子图对
SA1B-Paired-Captions-Images 数据集 SA1B-长文本图文描述是基于 SAM-CLIP_Object_Centric 管道的后期处理数据集,旨在匹配与局部描述相对应的子图。
SA1B-长文本图文描述
SA1B-密集描述数据集 本数据集包含来自sa-1b数据集中8631528幅图像的详尽、高品质、长文本描述。每张图片的描述细分为全局描述与细节元素,其中细节描述聚焦于图像内的关键元素,而全局描述整合了这些细节并提供更全面的信息。
生活垃圾分类
147674张带中文标签的生活垃圾图像集,包含可回收垃圾、厨余垃圾、有害垃圾、其他垃圾4个标准垃圾大类,覆盖常见的食品,厨房用品,家具,家电等265个垃圾小类。其中训练集133038张图像,验证集14642张图像,均从海量中文互联网社区语料进行提取,整理出频率较高的常见生活垃圾名称,数据大小为13GB。
蔬菜分类
最初的实验是用世界各地发现的15种常见蔬菜进行的。实验选择的蔬菜有:豆类、苦瓜、葫芦、茄子、西兰花、卷心菜、辣椒、胡萝卜、花椰菜、黄瓜、木瓜、土豆、南瓜、萝卜和番茄。共使用了来自15个类的21000张图像,其中每个类包含1400张尺寸为224×224、格式为*.jpg的图像。数据集中70%用于培训,15%用于验证,15%用于测试。
汽车分类
数据集包含50种类型汽车的图像,其中训练集4260张图片,验证集99张图片,数据大小共46MB,支持识别车型包括:BMW、Audi、Jeep、Mini、Suzuki、Bentley等汽车品牌。
花朵分类
数据集包含14种类型的花朵图像,其中13618张训练图片,98张验证图片,数据大小共202MB,支持识别以下花朵类型:康乃馨、鸢尾花、风铃草、金英花、玫瑰、落新妇、郁金香、金盏花、蒲公英、金鸡菊、黑眼菊、睡莲、向日葵、雏菊。
CC-OCR 数据
这是CC-OCR基准测试的代码仓库。 用于论文“CC-OCR: 一个全面且具有挑战性的OCR基准,用于评估大型多模态模型在读写能力方面的表现”的数据集和评估代码。