当前位置: 首页 > 行业资讯 > 资讯详情

OpenAI把3.5亿用户变成"免费标注工",谷歌这招够狠

发布日期：2026-04-12 来源：网易作者：网易浏览：2

用户以为自己在用产品，实际上是在做产品

2024年12月，OpenAI的ChatGPT周活用户突破3.5亿。这个数字背后藏着一个被忽视的真相：每个用户都在免费帮OpenAI训练模型。

这不是阴谋论。当你纠正ChatGPT的错误、追问它“再想想”、选择更满意的答案时，你的每一次交互都在生成高质量的人类反馈数据（RLHF，基于人类反馈的强化学习）。OpenAI没花一分钱标注成本，却拿到了比专业团队更丰富的真实场景数据。

谷歌DeepMind的研究员Jeff Dean在2023年的一场闭门分享中算过一笔账：传统方式训练一个GPT-4级别的模型，仅RLHF环节就需要雇佣数万名标注员，成本超过5000万美元。而ChatGPT的用户交互模式，把这个成本压到了接近零。

用户以为自己在用产品，实际上是在做产品。

更隐蔽的是“拒绝采样”（Rejection Sampling）机制。当你让ChatGPT重写答案、对比多个版本时，系统会自动记录哪些输出被采纳、哪些被丢弃。这些偏好数据比单纯的对错标注更有价值——它告诉模型什么是“更好”，而不只是“正确”。

国内大厂的跟进速度更快。字节跳动的豆包、百度的文心一言、阿里的通义千问，几乎复制了同一套设计：把用户交互界面变成数据采集器。区别在于，OpenAI靠先发优势积累了两年数据，后来者只能追赶。

谷歌的反击：用搜索数据“截胡”

2024年初，谷歌Gemini团队做了一个关键调整。他们不再单纯模仿ChatGPT的对话界面，而是把Gemini深度嵌入Google搜索、Gmail、Google Docs的工作流。

表面看这是产品策略，底层是数据策略。谷歌搜索每天处理85亿次查询，Gmail有18亿活跃用户，Docs有10亿用户。这些场景产生的不是“聊天数据”，而是“任务完成数据”——用户真正想解决问题时的行为轨迹。

对话只是表层，真正重要的是用户如何用行动投票。

举个例子。当你在Gemini里问“帮我写封辞职信”，然后编辑了它生成的内容、最终发送出去——这个完整链条比100轮闲聊更有训练价值。谷歌能追踪到：用户保留了哪些段落、删改了哪些措辞、最终成品是否被实际使用。

微软的Copilot走的是第三条路。它寄生在Office 365里，采集的是企业场景的专业数据：Excel公式怎么调、PPT结构怎么改、邮件语气怎么把握。这些数据量更小，但单位价值更高——企业愿意为精准度付费。

数据战争的三个战场

第一战场是“规模”。OpenAI靠3.5亿用户维持领先，但增速在放缓。2024年下半年，ChatGPT的月活增长从两位数跌到个位数。流量焦虑直接反映在产品上：OpenAI罕见地开始投放搜索广告，甚至传出考虑加入广告模式。

第二战场是“质量”。Anthropic的Claude选择了更克制的路线。他们不追求用户量，而是刻意筛选用户群体——开发者、研究人员、企业决策者。这些用户产生的数据密度更高，但采集速度更慢。

一个专业程序员纠正Claude的代码错误，比100个普通用户的闲聊更有价值。

这种策略的代价是商业化落后。Claude的营收据传只有OpenAI的十分之一。

第三战场最隐蔽：“合成数据”（Synthetic Data）。当真实人类数据耗尽，大厂开始用模型生成数据来训练模型。谷歌2024年发表的论文显示，Gemini Ultra有相当比例的训练数据来自早期模型的自我对弈和迭代优化。

这像是一场饮鸩止渴的游戏。合成数据能解燃眉之急，但模型会逐渐“近亲繁殖”，丧失对真实世界的敏感度。OpenAI和谷歌都在加大投入“数据过滤”技术，试图用AI筛选出高质量的合成样本。

2024年，AI labs的数据采购支出首次超过算力支出。这是行业拐点。

Scale AI创始人Alexandr Wang在年底的财报电话会上透露：他们给OpenAI、谷歌、Meta提供的人工标注服务，合同总额同比增长340%。“数据瓶颈”不再是学术讨论，而是真金白银的商业机会。

一个反直觉的趋势是：高质量人类数据的价格在暴涨。专业领域的标注——法律合同审查、医疗诊断辅助、金融合规检查——时薪从2023年的15美元涨到2024年的80美元以上。OpenAI甚至被曝出在非洲、东南亚以更低成本建立标注中心，引发伦理争议。

用户的觉醒与反抗

数据采集体制的裂缝正在显现。2024年，Reddit、Twitter（X）、Stack Overflow等平台集体上调API价格，实质是对AI公司“白嫖”内容的反击。Reddit的IPO招股书明确把“数据授权”列为核心收入来源，2024年这块业务创收2.03亿美元。

更激进的对抗来自内容创作者。美国作家协会、图片库Getty Images、音乐公司环球音乐，轮番起诉OpenAI、Stability AI、Anthropic侵权。这些诉讼的底层逻辑一致：你们用我们的作品训练模型，却既不通知也不分成。

欧盟《人工智能法案》2024年8月生效，强制要求AI公司披露训练数据来源。OpenAI的应对策略是：能模糊就模糊。他们在透明度报告中列出“公开可用数据”“授权数据”“合作伙伴数据”三大类，但拒绝给出具体比例。

用户的个体反抗更微妙。越来越多的人开始使用“数据毒药”工具——在社交媒体帖子中嵌入不可见标记，让爬虫采集的数据污染模型训练。2024年11月，芝加哥大学的研究团队发布Nightshade，可以让AI模型把“狗”学成“猫”，且难以修复。

这种对抗的代价是双输。模型质量下降，用户获得更差的体验；但如果不反抗，内容创作者的生存空间会被进一步挤压。

2025年的关键变量

三个趋势将重塑数据战争的格局。

第一，“边缘AI”（Edge AI）的崛起。苹果在2024年WWDC发布的Apple Intelligence，把模型推理放到设备端。这意味着用户数据不再上传云端，苹果也无法采集交互数据训练模型。这是隐私卖点，也是数据策略的彻底转向——苹果选择放弃RLHF，依赖预训练时的静态数据。

第二，多模态数据的争夺。文本数据的枯竭速度比预期更快。2024年，OpenAI和谷歌的重点转向视频、音频、图像——YouTube、TikTok、Instagram的内容库成为新战场。谷歌被曝用YouTube视频训练Gemini，引发创作者集体抗议。

第三，“数据联盟”的形成。小众但高质量的数据源开始抱团议价。医学期刊《柳叶刀》、法律数据库Westlaw、金融终端Bloomberg，都在2024年签订了独家AI训练授权协议。这些协议通常包含“模型改进分成”条款——如果AI公司用你的数据训练出更赚钱的模型，你要拿到一定比例收益。

这种安排打破了“数据免费”的默认假设，也可能加剧AI能力的分化。有钱买独家数据的大厂，和依赖公开数据的小团队，差距会越拉越大。

我们以为自己在设计工具，实际上是在设计一种新型的劳动关系。

这种劳动关系的核心特征是：用户贡献价值，但不分享收益；获得便利，但让渡数据主权。它不像传统雇佣那样有合同约束，也不像平台经济那样有明确的交易对价。

2024年底，一个名为“Data Dividend Project”的倡议在美国加州发起，主张用户应该从大模型产生的收益中获得分红。发起人是前总统候选人Andrew Yang，口号是“你的数据，你的分成”。

这个倡议目前只有象征意义。没有任何AI公司公开表示支持，法律框架也远未成熟。但它指向一个无法回避的问题：当3.5亿用户的数据喂养出价值1570亿美元的公司，这个价值应该如何分配？

OpenAI的下一步动作可能是答案的风向标。据The Information 2024年12月报道，他们正在测试“ChatGPT Pro”的高级订阅功能，月费200美元，包含更长的上下文、更快的响应、优先访问新模型。

更值得关注的是付费用户的“数据豁免”条款：Pro用户可以选择不让自己的对话用于模型训练。这是OpenAI首次在C端产品里提供数据退出机制，虽然藏得很深，默认仍是“同意采集”。

这个设计的潜台词是：数据是有价的，但价格由OpenAI单方面决定。你可以用200美元/月买断自己的数据贡献权，或者继续免费出让，换取基础服务。

谷歌和微软尚未跟进这一策略。他们的商业模式更依赖广告和企业服务，C端数据采集的紧迫性相对较低。但如果OpenAI的“数据付费墙”被验证可行，行业跟风只是时间问题。

一个更激进的预测来自a16z合伙人Marc Andreessen。他在2024年10月的播客中提出：未来可能出现“数据DAO”（去中心化自治组织），用户把个人数据托管在链上，AI公司按需付费调用，收益通过智能合约自动分配。

这个设想的技术成熟度存疑，但逻辑上回应了核心矛盾：在AI时代，数据是生产资料，但生产关系还停留在平台垄断的旧范式。

2024年的数据战争，本质是旧规则瓦解、新规则未立的过渡期。用户从“不知不觉”到“后知后觉”，再到“试图反抗”，这个认知曲线的陡峭程度，决定了权力转移的速度。

当ChatGPT的3.5亿用户里，有多少人真正理解自己正在参与一场全球最大的众包标注项目？

本文转载自网易，作者：网易，原文标题：《 OpenAI把3.5亿用户变成"免费标注工",谷歌这招够狠》，原文链接： https://www.163.com/dy/article/KQA8L6BS05561FZE.html。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号