首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们
为您找到符合条件的筛选结果 12
中文诗词数据集
中文诗词生成数据集,由中国古代各朝代诗词组成,可用于训练诗词续写模型
金融推理思维链数据集
金融领域复杂问题思维链数据集项目。通过 Chain of Thought (CoT) 蒸馏方法从大规模语料中提取金融领域知识。
法律
DISC-法律-SFT 数据集 中文法律智能系统需要结合多种能力,包括法律文本理解和生成。为此,我们构建了一个高质量的监督微调数据集,称为 DISC-法律-SFT,涵盖了不同的法律场景,如法律信息提取、法律判决预测、法律文件摘要和法律问题回答。DISC-法律-SFT 包含两个子集,即 DISC-法律-SFT-Pair 和 DISC-法律-SFT-Triplet。前者旨在向LLM引入法律推理能力,而后者则有助于提升模型利用外部法律知识的能力
石油工程(油气井工程)问答数据集
中文油气井工程问答数据集(Chinese-Oilwell-Engineering-QA-Dataset) 本数据集面向油气井工程场景,聚焦钻井工程、完井工程、井壁稳定与石油工程导论等核心知识,采用问答(QA)形式组织,适用于中文技术领域大模型的指令对齐与领域微调。 数据集概览 规模:共 19,355 条样本。 类型:QA 型(基于 instruction → output 的指令问答结构)。 格式:JSON 数组(json-array)。 领域:钻井工程、完井工程、井壁稳定、石油工程导论等。 数据来源与整理 本数据集主要依据以下来源进行整理与归纳: 钻井工程、完井工程、井壁稳定、石油工程导论等相关教材与专著 公开的综述性学术文献与工程实践资料 在整理过程中,我们进行了人工初步查验与审核,以提
对联生成
中文对联生成数据集,适用于训练对联生成模型。该数据集包含训练集(676460条)与测试集(1673条)。每条数据具备一个特征,即输入句子text1,由对联构成。
车载开机天气信息自动播报
车载开机天气信息自动播报数据集属于下游data-to-text类任务,可以用于训练天气自动播报或者开机欢迎语模型。本数据集包括训练集(34334)验证集(4316)测试集(3861)。其中,每一条数据有两个属性,分别是输入句子text1和输出句子text2。其中输入句子是结构化的天气信息,输出句子为一段描述天气的开机欢迎语。
商品文案描述生成
商品文案描述生成数据集属于下游data-to-text类任务,可以用于训练商品的卖点或文案描述生成模型。本数据集包括测试集(3848)。其中,每一条数据有两个属性,分别是输入句子text1和输出句子text2。其中输入句子是商品的卖点词,输出句子为一段描述该商品的文案。
心理健康-R1蒸馏中文数据集-10k
本数据集是专为心理健康领域设计的蒸馏数据集,旨在提升大模型在心理学相关任务中的推理能力和生成质量。数据集基于 psychology-10k-sft-zh,通过 DeepSeek R1 模型生成思维链(think)和输出(content),进一步增强了模型的推理能力。数据集包含 10,000 条高质量样本,适用于心理学领域的自然语言处理任务,如心理咨询、情感分析、多轮对话等。 数据集特点 高质量推理数据:通过 DeepSeek R1 生成思维链和输出,提升模型的推理能力。 中文心理学场景:数据集为中文,覆盖心理学领域的多种场景和问题。 长文本支持:数据长度达到 4096 及以上,适合处理复杂的长文本任务。 多轮对话支持:数据集包含多轮对话生成能力,适合构建智能助手类应用。
淘宝好评数据集
淘宝好评数据集属于下游生成类任务,可以用于训练淘宝好评机器人。本数据集包括训练集(226)验证集(20)测试集(77)。其中,每一条数据有两个属性,分别是输入句子text1和输出句子text2。其中输入句子是答案和相关的段落,输出句子为相应的问题。
广告文案生成数据集
AdvertiseGen以商品网页的标签与文案的信息对应关系为基础构造,是典型的开放式生成任务,在模型基于key-value输入生成开放式文案时,与输入信息的事实一致性需要得到重点关注。