首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

印度从零造出开源大模型 AI格局正在改写

发布日期:2026-04-05 来源:网易作者:网易

被骂骗子的两年半,从微调底座到从零造模

  Sarvam走到今天,其实用了整整两年零三个月,中间还经历过一次全网群嘲。

  故事的起点是2023年8月,两个在印度数字基础设施领域深耕多年的老兵凑在一起创办了这家公司:一个是印度本土AI语言计划AI4Bharat的联合创始人,另一个是全球最大数字身份系统Aadhaar的底层技术建设者。他们拿到了4100万美元融资,当时就喊出一个目标:做一个印度自己的大模型,服务22种官方语言的数亿非英语用户。

  拿到政府算力支持后,Sarvam在2025年5月发布了第一个产品Sarvam-M,结果出事了。这个模型是基于法国Mistral的底座微调而来,并非承诺的从零训练,上线两天Hugging Face下载量只有23次,被投资人直接在社交平台骂“丢人”。

  外界的嘲讽没有打垮团队,创始人只在社交平台说了一句话:“很高兴收到反馈,请继续,等我们开始训练主权模型的时候,这些都会用上。”没人想到,仅仅八个月后,他们就拿出了完全从零训练的Sarvam 105B。当初骂“丢人”的投资人,主动发文承认“I was wrong”。

AI主题创意图 · 带AI字样的蓝色大脑搭配科技感场景
AI主题创意图 · 带AI字样的蓝色大脑搭配科技感场景

  这个反转背后,藏着一个被大多数人忽略的关键细节:Sarvam拿到政府4096块H100之后,第一步没有直接启动训练,而是先重做了最底层的tokenizer。

  主流大模型的tokenizer对印度非拉丁文字效率极低,处理梵文、泰米尔文这类文字,要消耗比英文多几倍的token,直接拉高训练和推理成本。Sarvam重新训练的tokenizer,把印度文字处理效率提升了三到四倍,这一步没有任何发布会宣传,却是整个项目能成功的基础。

很多追赶者总想跳过基础建设直接冲结果,Sarvam的选择告诉我们:本土化大模型的真正门槛,从来都不是参数规模,而是底层适配。

政府出算力换股权 新模式打破创业门槛

  这次Sarvam训练模型,用的算力不是自己买的,而是来自印度政府的IndiaAI Mission计划。印度政府拿出4096块H100,补贴了近一半成本,只换来了公司部分股权,要求就是训练完成后必须开源。

  这种合作模式,在印度AI领域还是第一次。放到全球范围看,这其实是一种非常值得关注的新路径:后发国家做AI主权模型,不一定非要靠巨头砸钱,“政府出基础设施+创业公司出技术+开源共享成果”的模式,完全可以跑通。

  我们可以算一笔明白账:4096块H100用六个月,总账单约合290万美元,政府补贴了超过三分之一,创业公司只需要承担剩下的180万美元。对于拿到融资的初创公司来说,这个门槛远比自己采购整批GPU要低得多。

参与方 投入内容 收获内容
印度政府 4096块H100算力补贴 部分股权 完整主权模型
Sarvam团队 技术 工程 本土化数据 算力支持 研发启动资金
全球开发者 免费使用可商用的开源大模型

  更关键的是,印度政府没有干预具体的研发过程,只提了两个核心要求:从零训练、训练完成开源。这种“给资源不添乱”的合作方式,让创业团队保留了最大的灵活性。

  现在Sarvam靠着开源模型的成果,已经启动了新一轮融资,估值超过15亿美元,英伟达、亚马逊都准备参投。这套模式已经完成了正向循环:政府投入撬动社会资本,最终做成了各方都受益的结果。

18分不高但意义深远 多极格局正在成型

  客观来说,Sarvam 105B拿到的18分,和中美头部模型的差距还是非常明显的:Gemini 3.1 Pro Preview拿到57分,中国GLM-4.5拿到50分,都差不多是Sarvam的三倍。在编码能力和事实准确性上,Sarvam 105B的短板也非常突出,TerminalBench Hard测试只拿到1.5分,而GLM-4.5-Air拿到了20.5分。

  但我们不能只看分数,还要看这个分数是怎么来的:一年前印度在这个榜单上的分数是零,今天已经有了从零训练的1050亿参数模型,而且直接完全开源。对于AI竞赛来说,从零到一的突破,比分数高低本身更重要。

  Sarvam 105B的优势也非常明确:在印度本土语言处理上,它的表现已经超过了很多国际头部模型,在JEE Mains考试测试中拿到了70分(满分75),基本达到了印度本土优秀考生的水平。科学推理类测试的表现也可圈可点,完全配得上“有竞争力”的评价。

各国AI领先模型评分柱状图 · 展示不同国家顶尖AI模型的评分排名
各国AI领先模型评分柱状图 · 展示不同国家顶尖AI模型的评分排名

  放在全球AI格局里看,这件事的信号意义远超模型本身。过去两年,全球AI基础模型的俱乐部,一直只有少数几个国家的巨头玩家能进,现在印度用这种轻量化的模式撕开了一道口子。

  越来越多有本土化需求的国家,会顺着这条路走下去:不需要一开始就做全球第一,先解决自己的语言问题,满足本土市场需求,用公私合作的方式降低门槛,从零搭建自己的AI基础设施。AI格局从双雄对撞到多极竞争,真正的拐点已经来了。

开源带来新可能 后发者的破局路径

  Sarvam做完模型直接用最宽松的Apache 2.0协议开源,这个选择也非常值得玩味。任何人都可以免费下载、修改、商用,没有任何限制。

  为什么要这么做?一个很重要的原因是,后发模型想要建立生态,开源是最快的路径。把模型放出去,全球开发者帮你测试、帮你改、帮你做应用,快速迭代能力比闭源自研快得多。

  对于很多想要入场的后发国家来说,这是一个可以复制的思路:不需要一开始就想着做闭源赚大钱,先通过开源把生态做起来,把本土技术能力攒起来,比什么都重要。

  现在全球AI竞赛早就过了“比参数、比跑分”的初级阶段,不同区域市场有不同的需求:欧洲需要符合GDPR的本土模型,东南亚需要多语言适配的模型,非洲需要适配低资源语言的模型,这些需求都不是现有巨头模型能完全满足的。

  Sarvam的翻盘故事,本质上就是一个后发者的破局范本:抓住本土市场的真实需求,用创新模式降低入场门槛,靠开源快速搭建生态,一步一步完成从零到一的突破。

AI主权从来不是大国的专利,每个有本土化需求的市场,都值得一个懂自己语言的大模型。

  今天印度走通了这条路,明天就会有更多国家跟上。这场AI竞赛,才刚刚进入更精彩的第二阶段——当每个区域市场都长出自己的基础模型,全球AI生态会变成什么样,现在没人能准确预判,但可以肯定的是,它会比现在更丰富、更多元,也更能满足不同人群的真实需求。

本文转载自网易, 作者:网易, 原文标题:《 印度从零造出开源大模型 AI格局正在改写 》, 原文链接: https://www.163.com/dy/article/KPN9OFA5055616YL.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅