AI 数据集_多模态标注数据集_模型训练数据集资源

为您找到符合条件的筛选结果 12 个

中文诗词数据集

中文诗词生成数据集，由中国古代各朝代诗词组成，可用于训练诗词续写模型

面议

立即咨询

金融推理思维链数据集

金融领域复杂问题思维链数据集项目。通过 Chain of Thought (CoT) 蒸馏方法从大规模语料中提取金融领域知识。

面议

立即咨询

法律

DISC-法律-SFT 数据集中文法律智能系统需要结合多种能力，包括法律文本理解和生成。为此，我们构建了一个高质量的监督微调数据集，称为 DISC-法律-SFT，涵盖了不同的法律场景，如法律信息提取、法律判决预测、法律文件摘要和法律问题回答。DISC-法律-SFT 包含两个子集，即 DISC-法律-SFT-Pair 和 DISC-法律-SFT-Triplet。前者旨在向LLM引入法律推理能力，而后者则有助于提升模型利用外部法律知识的能力

面议

立即咨询

石油工程（油气井工程）问答数据集

中文油气井工程问答数据集（Chinese-Oilwell-Engineering-QA-Dataset）本数据集面向油气井工程场景，聚焦钻井工程、完井工程、井壁稳定与石油工程导论等核心知识，采用问答（QA）形式组织，适用于中文技术领域大模型的指令对齐与领域微调。数据集概览规模：共 19,355 条样本。类型：QA 型（基于 instruction → output 的指令问答结构）。格式：JSON 数组（json-array）。领域：钻井工程、完井工程、井壁稳定、石油工程导论等。数据来源与整理本数据集主要依据以下来源进行整理与归纳：钻井工程、完井工程、井壁稳定、石油工程导论等相关教材与专著公开的综述性学术文献与工程实践资料在整理过程中，我们进行了人工初步查验与审核，以提

面议

立即咨询

对联生成

中文对联生成数据集，适用于训练对联生成模型。该数据集包含训练集（676460条）与测试集（1673条）。每条数据具备一个特征，即输入句子text1，由对联构成。

面议

立即咨询

车载开机天气信息自动播报

车载开机天气信息自动播报数据集属于下游data-to-text类任务，可以用于训练天气自动播报或者开机欢迎语模型。本数据集包括训练集（34334）验证集（4316）测试集（3861）。其中，每一条数据有两个属性，分别是输入句子text1和输出句子text2。其中输入句子是结构化的天气信息，输出句子为一段描述天气的开机欢迎语。

面议

立即咨询

商品文案描述生成

商品文案描述生成数据集属于下游data-to-text类任务，可以用于训练商品的卖点或文案描述生成模型。本数据集包括测试集（3848）。其中，每一条数据有两个属性，分别是输入句子text1和输出句子text2。其中输入句子是商品的卖点词，输出句子为一段描述该商品的文案。

面议

立即咨询

心理健康-R1蒸馏中文数据集-10k

本数据集是专为心理健康领域设计的蒸馏数据集，旨在提升大模型在心理学相关任务中的推理能力和生成质量。数据集基于 psychology-10k-sft-zh，通过 DeepSeek R1 模型生成思维链（think）和输出（content），进一步增强了模型的推理能力。数据集包含 10,000 条高质量样本，适用于心理学领域的自然语言处理任务，如心理咨询、情感分析、多轮对话等。数据集特点高质量推理数据：通过 DeepSeek R1 生成思维链和输出，提升模型的推理能力。中文心理学场景：数据集为中文，覆盖心理学领域的多种场景和问题。长文本支持：数据长度达到 4096 及以上，适合处理复杂的长文本任务。多轮对话支持：数据集包含多轮对话生成能力，适合构建智能助手类应用。

面议

立即咨询

淘宝好评数据集

淘宝好评数据集属于下游生成类任务，可以用于训练淘宝好评机器人。本数据集包括训练集（226）验证集（20）测试集（77）。其中，每一条数据有两个属性，分别是输入句子text1和输出句子text2。其中输入句子是答案和相关的段落，输出句子为相应的问题。

面议

立即咨询

广告文案生成数据集

AdvertiseGen以商品网页的标签与文案的信息对应关系为基础构造，是典型的开放式生成任务，在模型基于key-value输入生成开放式文案时，与输入信息的事实一致性需要得到重点关注。

面议

立即咨询

共 12 条

1 2

前往页

AI生态大厅