SoFAIR数据集:多领域研究文献中软件提及标注的创新资源

数据集的构建与内容

　　研究人员通过系统的工作流程，最终构建了名为SoFAIR的数据集。该数据集的核心内容来自于近500篇研究论文全文，这些论文横跨包括生命科学、社会科学、物理学、计算机科学等在内的18个不同科学学科，确保了其广泛的代表性和多领域适用性。通过自动化与人工结合的标注流程，该数据集最终包含了超过9,000个独立的软件提及。这些提及并非简单罗列，而是被系统地划分为“软件名称”、“版本”、“发布者”、“URL”等共计10个不同的语义类别，实现了对软件信息的多维度、结构化描述。此外，数据集中还包含了超过2,000组“关系”（relations），用以刻画不同软件提及之间的关联，例如一个版本信息归属于某个特定的软件名称。这一丰富、多层次的标注结构，使得该数据集远超简单的术语列表，成为一个深度语义化的知识资源。

数据集的格式、可用性与统计特征

　　为促进数据集的广泛使用与互操作性，研究者选择将其发布为TEI XML格式。TEI（文本编码倡议）是一种在数字人文领域广泛使用的标准文本编码框架，其结构化特性完美适配了本数据集复杂的标注体系。数据集遵循知识共享署名（CC-BY）许可协议开放获取，最大程度地降低了重用障碍。论文中提供了详尽的统计数据，例如展示了不同软件类别在数据集中出现的频次分布，揭示了哪些类型的软件信息（如名称、版本）在学术文献中被更频繁地提及或缺失。这些统计不仅直观地反映了当前学术写作中软件引用的现状与痛点，也为后续研究，如开发更精准的软件提及自动识别模型，提供了关键的评估基准和训练数据。

结论与讨论

　　本研究成功构建并发布了SoFAIR数据集，这是目前一个大规模、多学科、深度标注的学术文献软件提及资源。它系统化地捕捉并结构化地描述了研究论文中软件实体的多种属性及其相互关系。这项工作的重要意义体现在三个层面：在方法论层面，它通过公开高质量的标注数据与详尽的统计，为后续开发与评估更先进的自然语言处理（NLP）模型，特别是用于软件提及识别（Software Mention Recognition, SMR）和命名实体识别（Named Entity Recognition, NER）的模型，提供了至关重要的基准（benchmark）资源。在科研实践层面，该数据集直接服务于“研究可重复性”（research reproducibility）和“数据重用”（data reuse）两大核心目标。通过提升软件引用的可发现性与规范性，它能显著降低其他学者复现或拓展已有研究的工作门槛。在科研文化层面，它有助于推动对软件作为重要科研产出的认可，使软件开发者的贡献在学术评价中得到更公正的衡量，从而激励高质量科研软件的持续产出与共享。总之，SoFAIR数据集犹如一把钥匙，为解锁学术文献中蕴藏的软件知识、构建更透明、可重复、协作高效的现代科学生态系统奠定了坚实的数据基础。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议