智算多多



2026-03-16
计算人文,或称数字人文,是人文科学与信息技术深度融合的交叉领域,旨在借助计算方法揭示人文现象的规律与意义。计算人文以人类表达,即以各种符号系统记录和呈现的人文活动及其产物为研究对象,强调将计算方法与信息技术系统性地引入人文学科的知识生产、知识组织与知识传播过程之中。在这一研究范式中,数字资源的数字化保存与检索虽构成基础条件,但真正支撑计算分析与知识发现的关键是对研究对象进行结构化表达的数据集。可以说,数据集是人文研究与计算技术之间最为关键、也最具现实可行性的连接点。其中,文本在人文学科的数据中居于核心地位,高质量文本数据集建设对于计算人文研究至关重要。
广义而言,人文学科中的“文本”并不限于狭义的文字材料,而是涵盖一切可被阅读、阐释与诠释的意义载体,是人文知识生产与传承的基础形态。“文本数据集”并非一般意义上的人文资源汇编,而是在数字化基础上,对文本所承载的知识要素进行建模与结构化描述而形成的可计算数据集合。在此意义上,计算人文领域的高质量文本数据集,指围绕明确的人文研究对象与使用需求,在规范采集优质原始文本的基础上,经由系统化标注与结构化建模而形成的数据集合。此类数据集能够被算法与模型直接调用,用于统计分析、语义表征或模型训练,并在相应任务中稳定提升分析效果或模型性能。
伴随计算人文的发展及长期实践积累,文本数据集已形成多种形态,并围绕符号标注、知识建模等基础性工作取得了较为丰富的成果,在一定程度上支撑了计算分析与定量研究。然而,从直接可使用的角度看,现有数据集仍普遍存在不足。研究者在开展计算前往往还需要对数据集进行大量的人工清洗与再加工工作,以提升数据集的可计算性与可解释性,解决不同数据集之间的不一致问题。这一现象反映了计算人文的文本数据集建设在整体设计与规范层面仍存在不足。
与此同时,人工智能技术的快速发展进一步放大了这一问题。人工智能大语言模型的构建高度依赖数据集支撑,其数据需求已由通用化转向专业化、场景化与多模态的纵深发展,领域高质量数据的重要性愈加凸显。相较于数据集的具体形态,当前更为强调其“ AI就绪( AI-ready )”状态,即能够直接用于人工智能模型开发与训练,并有效提升模型性能。由此,“高质量”不再仅指数据规模或覆盖范围,同时体现为数据内容对领域知识的准确表达、数据加工过程的规范性与一致性,并最终落实为在具体研究与智能应用场景中的可使用性与可计算性。对照这一要求,即便在计算人文领域相对成熟的文本数据集,也普遍难以满足高质量以及AI 就绪标准。
在此背景下,传统学术研究需求与人工智能技术发展共同对计算人文文本数据集建设提出了新的挑战:如何在充分发挥既有数据形态优势的基础上,从数据对象与内容设计、加工处理流程以及应用场景适配等层面系统提升文本数据集质量,一方面增强其计算能力,另一方面满足AI 就绪要求,为文本数据集向大语言模型等智能应用的直接转化提供支撑。
基于此,本文从理念、方法与应用三个层面重新审视计算人文高质量文本数据集的建设路径:在理念层面,明确文本数据集的内涵特征;在方法层面,将理念具体化,重点探讨相应的技术路径与实施机制,系统分析内容高质量、过程高质量与应用高质量的实现方式;在应用层面,结合不同形态文本数据集的计算能力,探讨其应用优势与发展方向。
| 2025年发布的用于智能计算的数据标准 | |
|---|---|
| 计算人文高质量文本数据集建设应用实践 |
经过数十年的持续积累,以主题数据库、语料库与知识库为代表的多种计算人文高质量文本数据集,在各自的计算能力内有效推动了相关研究的发展。随着人文学术问题的深化以及人工智能技术的快速演进,既有数据集在大语言模型等智能应用场景下面临新的应用需求,即在保持原有结构优势的同时,进一步提升文本数据的可计算性与规范化水平,实现AI 就绪,从而满足多样化的智能服务。
基于此,下文从应用实践视角出发,考察计算人文高质量文本数据集的现实作用,重点讨论主题数据库在量化学术研究与知识发现、语料库在智能模型训练与适配,以及知识库在知识传播与文化推广三个方面的应用。
主题数据库是计算人文领域最早也是最为成熟的数据集形态之一,通常以关系数据库为技术基础,通过对同类信息的系统抽取与规范化组织,构建面向特定研究对象的结构化数据资源。其建设的初始目标在于实现人文资料由可读向可算的转化,即通过元数据规范与语义化标注,将原本分散于不同文献形态(如墓志铭、书信、地方志等)中的信息加以汇聚与整合,从而显著提升数据的可检索性与可分析性,为系统性的量化研究奠定基础。经过近三十年的持续建设与应用实践,主题数据库已从单纯的资料汇聚,逐步发展为支撑计算人文量化研究的重要基础设施,其学术价值主要体现在以下两个方面。
以“中国历代人物传记资料库”(China Biographical Database, CBDB)为代表的学术型数据库,已成为研究中国历史社会结构与人物群体的重要基础设施。CBDB 基于关系数据库模型,对正史列传、墓志铭、地方志等传统传记资源进行系统整合,并进一步扩展至文学作品(如祭文、序、记、书信等)与官方文书(如年表、会要)中的人物信息记录,实现跨文献类型的人物信息抽取与统一描述。其数据组织以人物为核心,系统涵盖籍贯与地址、亲属关系、社会关系、职官经历、入仕路径、社会机构(如书院、寺庙、道观等)、社会身份以及相关文本作品等要素,完成了从文献叙述向结构化数据单元的转化。
类似的建设实践还包括“明清妇女著作数字档案与数据库计划”,该项目聚焦女性文学作品的数字化整理与文本结构化表达,为性别研究与文学社会学提供了新的数据基础。“中国历史官员量化数据库”则以《清代缙绅录集成》为核心文献,对清代官员的任职轨迹、仕途路径与制度背景进行结构化建模,为政治史与社会史研究提供了可计算的量化样本。
这些主题数据库一方面以规模化、结构化的数据支撑了以群体为分析对象的量化研究路径,使研究重心由个体叙事转向对历史群体整体特征与社会结构的统计分析,推动了“群体传记学”等研究范式的发展。
另一方面,其在人物要素拆解、关系类型界定与元数据设计方面形成的知识组织框架,也被应用于历史文本的自动处理任务中。在关系抽取、事件抽取等自然语言处理研究中,CBDB 所构建的人物实体范畴与关系体系,已成为数据标注、特征设计与模型构建的重要参照。
除人物主题外,围绕目录、地点与时间等核心要素的主题数据库亦在快速发展。例如,“中华古籍书目数据库”整合了自古至今的多种书目资源,为每一部典籍构建独立条目,实现对传统纸本文献的数字替代与高效检索。
随着数据使用需求日益具体和深入,主题数据库逐步通过强化数据条目的语义化、可推理化与开放互操作性来提升整体可计算性。在这一过程中,信息管理学界依托既有的书目组织经验与知识组织理论,推动了一系列具有代表性的实践探索。
另一方面,通过开放接口与数据互联机制,主题数据库在构建过程中逐步融入现行标注、支持跨平台调用与二次开发。例如“家谱知识服务平台”构建过程中,研究者通过扩展BIBFRAME 书目本体的属性体系,实现了人物、家族、地域与文献之间的语义互联,使家谱资源既能支持学术考据,也能服务于社会公众的寻根应用。
语料库核心特征在于依据自然语言处理任务逻辑,对文本中的实体、关系等知识内容进行系统标注。不同于以知识对象为中心的主题数据库,语料库以模型训练与评测为核心目标,通过提供高质量、标准化的语言样本与标注体系,支撑统计/语义表征模型的训练、微调与迁移,从而推动检索、抽取与文本生成等下游任务的系统化发展。其建设重点主要体现在两个层面,序列标注与领域词典,以及面向特定任务的统计模型与语言模型一体化应用。
在汉语通用语料库建设中,《人民日报》语料因其文本内容权威、语言规范而具有代表性。南京农业大学构建的“新时代人民日报语料库(New Era People's Daily Segmented Corpus,NEPD)”以2015—2022年间的10个月《人民日报》全文为原始语料,采用人工分词的方式,构建完成了超过3,000万字的可复用精加工大规模现代汉语分词语料库,并向学界开放共享。该语料库为各学科的研究提供了真实、全面、精准且符合时代特征的现代汉语语言知识,既可以成为模型训练、微调与评测的重要基准,也有助于促进相关学科领域研究的数据化、精细化和体系化。
除通用语料外,面向特定领域的语料库亦不断丰富,尤以文学与文化类资源最为集中。如“莎士比亚戏剧英汉平行语料库”为文学语域下的跨语言研究提供了系统的领域词典与标注样本,有效支撑了模型在文学文本理解与生成任务中的适配。
总体而言,此类语料库通过规范化词汇、词表与标注体系,不仅提升了语言样本的可计算性,也为跨语种、跨学科的模型训练、微调与评测奠定了统一基础。
语料库的价值不仅体现在训练样本本身,更体现在其所支撑与生成的统计/语言模型之中。语料库可以不以独立数据形态存在,而是与预训练语言模型深度耦合,形成“数据—模型”一体化的应用形态。此类模型在同类文本处理任务中通常表现出显著优势,并可通过相近领域语料库的持续微调,进一步增强其迁移能力与泛化性能。
需要指出的是,此类模型本质上仍属于统计/语言模型而非知识模型。统计/语言模型通过概率分布或神经网络学习隐式语义结构,擅长语言生成与表征学习;知识模型则以本体或知识图谱形式化显性语义,强调逻辑一致性与可解释推理。二者在计算原理上存在差异,但在工程实践中具有高度互补性。
知识库核心目标在于智能应用与文化传播。相较于以规模化数据支撑量化分析的主题数据库,以及以模型训练与评测为导向的语料库,知识库通常以有限但高度精选的文本为对象,强调系统化的知识建模与语义组织,在计算人文领域中承担着将学术研究成果转化为可理解、可传播文化内容的重要功能,对优秀传统文化的阐释与传播具有直接意义。
在公共文化传播层面,知识库进一步通过多模态数据整合与人机交互设计,将文本知识转化为可探索、易理解的数字内容。“《永乐大典》高清影像数据库系统”依托小规模但高质量数据集,结合可视化界面和融媒体展示,使公众在理解基本文献结构与内容的同时参与文献探索,增强了典籍的可接近性与传播效果。“高迁古村数字记忆网站项目”虽然不是单纯的文本型数据,但通过全要素数字化与全息呈现策略将历史文本、村落图像和地理信息整合为语义丰富的知识库,实现了文本与空间、多媒体的交互式诠释。“敦煌智慧数据”项目在高质量文本数据支撑下,将图像资源纳入统一叙事框架,展现出较强的文化叙事与知识传播能力。