智算多多联系我们


关注我们

公众号

视频号
隐私协议用户协议
◎ 2025 北京智算多多科技有限公司版权所有京ICP备 2025150592号-1
传统的手工拆分数据集方式不仅效率低下,还容易导致分配不均和版本混乱。
Doccano 作为开源的文本标注工具,其核心价值在于简化多人协作流程。但很多团队仅使用了基础功能,未能充分发挥其任务分配潜力。系统内置的随机分配虽然简单,但缺乏灵活性和可控性。
在标准 JSON 导入格式中,label 字段通常被用来存储标注结果。但我们可以通过预处理,将其转化为任务分配标识符。
[ { "text": "大语言模型的训练需要海量高质量数据...", "label": "annotator_3" } ]
智能分配的核心在于预处理阶段。
data = json.load(f) # 循环分配标注者 annotator_cycle = cycle(annotators) with open(output_file, 'w') as f: json.dump(data, f, ensure_ascii=False, indent=2) output_file = 'assigned_data.json', annotators = ['annotator_1', 'annotator_2', 'annotator_3']
for i, item in enumerate(sorted_data): item['label'] = annotators[i % len(annotators)]
为每个标注者创建独立账号,并设置 Annotation Approver 角色用于质检。