首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

OpenAI把3.5亿用户变成"免费标注工",谷歌这招够狠

发布日期:2026-04-12 来源:网易作者:网易

用户以为自己在用产品,实际上是在做产品

  2024年12月,OpenAI的ChatGPT周活用户突破3.5亿。这个数字背后藏着一个被忽视的真相:每个用户都在免费帮OpenAI训练模型。

  这不是阴谋论。当你纠正ChatGPT的错误、追问它“再想想”、选择更满意的答案时,你的每一次交互都在生成高质量的人类反馈数据(RLHF,基于人类反馈的强化学习)。OpenAI没花一分钱标注成本,却拿到了比专业团队更丰富的真实场景数据。

  谷歌DeepMind的研究员Jeff Dean在2023年的一场闭门分享中算过一笔账:传统方式训练一个GPT-4级别的模型,仅RLHF环节就需要雇佣数万名标注员,成本超过5000万美元。而ChatGPT的用户交互模式,把这个成本压到了接近零。

用户以为自己在用产品,实际上是在做产品。

  更隐蔽的是“拒绝采样”(Rejection Sampling)机制。当你让ChatGPT重写答案、对比多个版本时,系统会自动记录哪些输出被采纳、哪些被丢弃。这些偏好数据比单纯的对错标注更有价值——它告诉模型什么是“更好”,而不只是“正确”。

  国内大厂的跟进速度更快。字节跳动的豆包、百度的文心一言、阿里的通义千问,几乎复制了同一套设计:把用户交互界面变成数据采集器。区别在于,OpenAI靠先发优势积累了两年数据,后来者只能追赶。

谷歌的反击:用搜索数据“截胡”

  2024年初,谷歌Gemini团队做了一个关键调整。他们不再单纯模仿ChatGPT的对话界面,而是把Gemini深度嵌入Google搜索、Gmail、Google Docs的工作流。

  表面看这是产品策略,底层是数据策略。谷歌搜索每天处理85亿次查询,Gmail有18亿活跃用户,Docs有10亿用户。这些场景产生的不是“聊天数据”,而是“任务完成数据”——用户真正想解决问题时的行为轨迹。

对话只是表层,真正重要的是用户如何用行动投票。

  举个例子。当你在Gemini里问“帮我写封辞职信”,然后编辑了它生成的内容、最终发送出去——这个完整链条比100轮闲聊更有训练价值。谷歌能追踪到:用户保留了哪些段落、删改了哪些措辞、最终成品是否被实际使用。

  微软的Copilot走的是第三条路。它寄生在Office 365里,采集的是企业场景的专业数据:Excel公式怎么调、PPT结构怎么改、邮件语气怎么把握。这些数据量更小,但单位价值更高——企业愿意为精准度付费。

数据战争的三个战场

  第一战场是“规模”。OpenAI靠3.5亿用户维持领先,但增速在放缓。2024年下半年,ChatGPT的月活增长从两位数跌到个位数。流量焦虑直接反映在产品上:OpenAI罕见地开始投放搜索广告,甚至传出考虑加入广告模式。

  第二战场是“质量”。Anthropic的Claude选择了更克制的路线。他们不追求用户量,而是刻意筛选用户群体——开发者、研究人员、企业决策者。这些用户产生的数据密度更高,但采集速度更慢。

一个专业程序员纠正Claude的代码错误,比100个普通用户的闲聊更有价值。

  这种策略的代价是商业化落后。Claude的营收据传只有OpenAI的十分之一。

  第三战场最隐蔽:“合成数据”(Synthetic Data)。当真实人类数据耗尽,大厂开始用模型生成数据来训练模型。谷歌2024年发表的论文显示,Gemini Ultra有相当比例的训练数据来自早期模型的自我对弈和迭代优化。

  这像是一场饮鸩止渴的游戏。合成数据能解燃眉之急,但模型会逐渐“近亲繁殖”,丧失对真实世界的敏感度。OpenAI和谷歌都在加大投入“数据过滤”技术,试图用AI筛选出高质量的合成样本。

2024年,AI labs的数据采购支出首次超过算力支出。这是行业拐点。

  Scale AI创始人Alexandr Wang在年底的财报电话会上透露:他们给OpenAI、谷歌、Meta提供的人工标注服务,合同总额同比增长340%。“数据瓶颈”不再是学术讨论,而是真金白银的商业机会。

  一个反直觉的趋势是:高质量人类数据的价格在暴涨。专业领域的标注——法律合同审查、医疗诊断辅助、金融合规检查——时薪从2023年的15美元涨到2024年的80美元以上。OpenAI甚至被曝出在非洲、东南亚以更低成本建立标注中心,引发伦理争议。

用户的觉醒与反抗

  数据采集体制的裂缝正在显现。2024年,Reddit、Twitter(X)、Stack Overflow等平台集体上调API价格,实质是对AI公司“白嫖”内容的反击。Reddit的IPO招股书明确把“数据授权”列为核心收入来源,2024年这块业务创收2.03亿美元。

  更激进的对抗来自内容创作者。美国作家协会、图片库Getty Images、音乐公司环球音乐,轮番起诉OpenAI、Stability AI、Anthropic侵权。这些诉讼的底层逻辑一致:你们用我们的作品训练模型,却既不通知也不分成。

  欧盟《人工智能法案》2024年8月生效,强制要求AI公司披露训练数据来源。OpenAI的应对策略是:能模糊就模糊。他们在透明度报告中列出“公开可用数据”“授权数据”“合作伙伴数据”三大类,但拒绝给出具体比例。

  用户的个体反抗更微妙。越来越多的人开始使用“数据毒药”工具——在社交媒体帖子中嵌入不可见标记,让爬虫采集的数据污染模型训练。2024年11月,芝加哥大学的研究团队发布Nightshade,可以让AI模型把“狗”学成“猫”,且难以修复。

  这种对抗的代价是双输。模型质量下降,用户获得更差的体验;但如果不反抗,内容创作者的生存空间会被进一步挤压。

2025年的关键变量

  三个趋势将重塑数据战争的格局。

  第一,“边缘AI”(Edge AI)的崛起。苹果在2024年WWDC发布的Apple Intelligence,把模型推理放到设备端。这意味着用户数据不再上传云端,苹果也无法采集交互数据训练模型。这是隐私卖点,也是数据策略的彻底转向——苹果选择放弃RLHF,依赖预训练时的静态数据。

  第二,多模态数据的争夺。文本数据的枯竭速度比预期更快。2024年,OpenAI和谷歌的重点转向视频、音频、图像——YouTube、TikTok、Instagram的内容库成为新战场。谷歌被曝用YouTube视频训练Gemini,引发创作者集体抗议。

  第三,“数据联盟”的形成。小众但高质量的数据源开始抱团议价。医学期刊《柳叶刀》、法律数据库Westlaw、金融终端Bloomberg,都在2024年签订了独家AI训练授权协议。这些协议通常包含“模型改进分成”条款——如果AI公司用你的数据训练出更赚钱的模型,你要拿到一定比例收益。

  这种安排打破了“数据免费”的默认假设,也可能加剧AI能力的分化。有钱买独家数据的大厂,和依赖公开数据的小团队,差距会越拉越大。

我们以为自己在设计工具,实际上是在设计一种新型的劳动关系。

  这种劳动关系的核心特征是:用户贡献价值,但不分享收益;获得便利,但让渡数据主权。它不像传统雇佣那样有合同约束,也不像平台经济那样有明确的交易对价。

  2024年底,一个名为“Data Dividend Project”的倡议在美国加州发起,主张用户应该从大模型产生的收益中获得分红。发起人是前总统候选人Andrew Yang,口号是“你的数据,你的分成”。

  这个倡议目前只有象征意义。没有任何AI公司公开表示支持,法律框架也远未成熟。但它指向一个无法回避的问题:当3.5亿用户的数据喂养出价值1570亿美元的公司,这个价值应该如何分配?

  OpenAI的下一步动作可能是答案的风向标。据The Information 2024年12月报道,他们正在测试“ChatGPT Pro”的高级订阅功能,月费200美元,包含更长的上下文、更快的响应、优先访问新模型。

  更值得关注的是付费用户的“数据豁免”条款:Pro用户可以选择不让自己的对话用于模型训练。这是OpenAI首次在C端产品里提供数据退出机制,虽然藏得很深,默认仍是“同意采集”。

  这个设计的潜台词是:数据是有价的,但价格由OpenAI单方面决定。你可以用200美元/月买断自己的数据贡献权,或者继续免费出让,换取基础服务。

  谷歌和微软尚未跟进这一策略。他们的商业模式更依赖广告和企业服务,C端数据采集的紧迫性相对较低。但如果OpenAI的“数据付费墙”被验证可行,行业跟风只是时间问题。

  一个更激进的预测来自a16z合伙人Marc Andreessen。他在2024年10月的播客中提出:未来可能出现“数据DAO”(去中心化自治组织),用户把个人数据托管在链上,AI公司按需付费调用,收益通过智能合约自动分配。

  这个设想的技术成熟度存疑,但逻辑上回应了核心矛盾:在AI时代,数据是生产资料,但生产关系还停留在平台垄断的旧范式。

  2024年的数据战争,本质是旧规则瓦解、新规则未立的过渡期。用户从“不知不觉”到“后知后觉”,再到“试图反抗”,这个认知曲线的陡峭程度,决定了权力转移的速度。

  当ChatGPT的3.5亿用户里,有多少人真正理解自己正在参与一场全球最大的众包标注项目?

本文转载自网易, 作者:网易, 原文标题:《 OpenAI把3.5亿用户变成"免费标注工",谷歌这招够狠 》, 原文链接: https://www.163.com/dy/article/KQA8L6BS05561FZE.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅