首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

Uber把16000个数据集"分家",省出1PB存储还不停机

发布日期:2026-04-13 来源:网易作者:网易浏览:2

Uber最近干了一件事:把自家Hive数据仓库拆了。16000多个数据集、超过10PB的数据,从“大杂院”搬进了“独门独院”。

这事听着像搬家,实则不然。以前Uber所有配送业务的数据全挤在一个Hive实例里,同一个命名空间下塞得满满当当。坏处很明显:一处故障可能拖垮全局,资源争抢像早高峰地铁,治理权限更是“一刀切”——改个配置要层层审批,等批下来业务早凉了。

联邦化:不动数据,只改指针

他们的解法叫“联邦化”,核心就一招:不动数据,只改指针。

具体来说,工程师在Hive Metastore里给每个数据集换了个“门牌号”,指向新的HDFS路径。数据本身只复制一次到目标位置,随后更新指针,整个过程查询照常跑。用Uber工程师Vijayant Soni的话说:“HMS里改指针是瞬时操作,核心工作负载不会感知到迁移正在发生。”

四大组件协同保障迁移平稳

这套方案靠四个组件配合:

  • 引导迁移器负责初次搬运,用Spark分布式作业加校验和保数据完整;
  • 实时同步器和批量同步器维持两端元数据一致,支持双向更新,团队该读写读写;
  • 恢复编排器则盯着指针备份,发现不对能一键回滚;
  • 人机协同验证加自动化检查,让迁移像换轮胎时车还在开。

去中心化带来的实际收益

去中心化后,“吵闹邻居”问题没了——各团队不再抢同一池资源。ACL权限收紧到领域级别,谁碰了哪张表一目了然。工程师还能在仪表盘上看迁移进度、数据集状态、同步指标,透明度上去了,操作也敢放手做了。

最终成果:700多万次HMS同步,数千数据集完成迁移,清理旧数据回收超1PB存储。新数据集接入流程简化,合规审计自动留痕。最重要的是,中央运营团队不用再当“救火队长”,各业务方自己对自己负责,反馈周期短了,系统弹性反而强了。

有个细节挺有意思。迁移期间,依赖Hive的分析任务和机器学习管道全程零停机——对于一家靠实时调度吃饭的公司,这大概是比省出1PB存储更值得写进OKR的指标。

本文转载自网易, 作者:网易, 原文标题:《 Uber把16000个数据集"分家",省出1PB存储还不停机 》, 原文链接: https://www.163.com/dy/article/KQCOQDOI05561FZO.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅