首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们
为您找到符合条件的筛选结果 29
石油工程(油气井工程)问答数据集
中文油气井工程问答数据集(Chinese-Oilwell-Engineering-QA-Dataset) 本数据集面向油气井工程场景,聚焦钻井工程、完井工程、井壁稳定与石油工程导论等核心知识,采用问答(QA)形式组织,适用于中文技术领域大模型的指令对齐与领域微调。 数据集概览 规模:共 19,355 条样本。 类型:QA 型(基于 instruction → output 的指令问答结构)。 格式:JSON 数组(json-array)。 领域:钻井工程、完井工程、井壁稳定、石油工程导论等。 数据来源与整理 本数据集主要依据以下来源进行整理与归纳: 钻井工程、完井工程、井壁稳定、石油工程导论等相关教材与专著 公开的综述性学术文献与工程实践资料 在整理过程中,我们进行了人工初步查验与审核,以提
对联生成
中文对联生成数据集,适用于训练对联生成模型。该数据集包含训练集(676460条)与测试集(1673条)。每条数据具备一个特征,即输入句子text1,由对联构成。
车载开机天气信息自动播报
车载开机天气信息自动播报数据集属于下游data-to-text类任务,可以用于训练天气自动播报或者开机欢迎语模型。本数据集包括训练集(34334)验证集(4316)测试集(3861)。其中,每一条数据有两个属性,分别是输入句子text1和输出句子text2。其中输入句子是结构化的天气信息,输出句子为一段描述天气的开机欢迎语。
商品文案描述生成
商品文案描述生成数据集属于下游data-to-text类任务,可以用于训练商品的卖点或文案描述生成模型。本数据集包括测试集(3848)。其中,每一条数据有两个属性,分别是输入句子text1和输出句子text2。其中输入句子是商品的卖点词,输出句子为一段描述该商品的文案。
心理健康-R1蒸馏中文数据集-10k
本数据集是专为心理健康领域设计的蒸馏数据集,旨在提升大模型在心理学相关任务中的推理能力和生成质量。数据集基于 psychology-10k-sft-zh,通过 DeepSeek R1 模型生成思维链(think)和输出(content),进一步增强了模型的推理能力。数据集包含 10,000 条高质量样本,适用于心理学领域的自然语言处理任务,如心理咨询、情感分析、多轮对话等。 数据集特点 高质量推理数据:通过 DeepSeek R1 生成思维链和输出,提升模型的推理能力。 中文心理学场景:数据集为中文,覆盖心理学领域的多种场景和问题。 长文本支持:数据长度达到 4096 及以上,适合处理复杂的长文本任务。 多轮对话支持:数据集包含多轮对话生成能力,适合构建智能助手类应用。
淘宝好评数据集
淘宝好评数据集属于下游生成类任务,可以用于训练淘宝好评机器人。本数据集包括训练集(226)验证集(20)测试集(77)。其中,每一条数据有两个属性,分别是输入句子text1和输出句子text2。其中输入句子是答案和相关的段落,输出句子为相应的问题。
广告文案生成数据集
AdvertiseGen以商品网页的标签与文案的信息对应关系为基础构造,是典型的开放式生成任务,在模型基于key-value输入生成开放式文案时,与输入信息的事实一致性需要得到重点关注。
中文诗词数据集
中文诗词生成数据集,由中国古代各朝代诗词组成,可用于训练诗词续写模型。本数据集包括训练集(388599)测试集(1710)。其中,每一条数据有一个属性,输入句子text1,由一段诗词组成
诗词引用数据集
一招数据集是一个2TB高质量多模态的大模型训练数据集,致力于构建一个更金融、更干净且符合社会主义核心价值观的大规模金融领域数据集。 本数据集将不仅包含广泛的金融事件、市场动态,还涵盖各种金融产品和交易模式,以确保模型在复杂的金融环境中展现出卓越的泛化能力和预测准确性。 本数据集重视数据合规性,坚决维护数据隐私、保护商业机密并要求数据符合社会主义核心价值观。借助专业的数据清洗方法,确保在不侵犯用户权益的前提下,安全、合法地利用这些数据,进而驱动行业知识探索和智能决策能力的增强。