首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

微软发布三款全新基础大模型 打响多模态AI赛道卡位战

发布日期:2026-04-06 来源:新浪网作者:新浪网

微软发布三款全新基础大模型,加速布局多模态AI赛道

  美国科技巨头微软于2026年4月推出三款全新基础大模型,上述产品由微软旗下成立仅6个月的MAI团队研发,覆盖语音转文字、音频生成、图像生成三大核心能力,直指当前多模态AI赛道主流竞品,旨在进一步扩大微软在全球生成式AI市场的话语权,与OpenAI、谷歌DeepMind等厂商展开直接竞争。

  2026年以来,全球多模态AI赛道的竞争已经脱离早期通用大模型“堆参数”的粗放式增长阶段,头部厂商纷纷转向覆盖特定场景的轻量化基础模型布局,通过降低调用门槛、提升细分场景性能抢夺客户。此前谷歌DeepMind已推出面向音视频端侧场景的Gemini 2.5 Nano分支,OpenAI也开启了GPT-5语音交互功能的小范围灰度测试,业内普遍认为,多模态交互能力将成为下一代消费级和企业级AI产品的核心入口。

  此次微软发布的三款基础大模型,全部由2025年10月才正式组建的MAI团队独立研发,成立仅半年就拿出落地产品,也侧面印证了微软对自研AI技术的投入强度。

三款模型覆盖核心AI应用场景

  三款模型分别覆盖不同的核心场景:

  • 语音转写模型:支持全球102种语言及方言识别,嘈杂环境下的识别准确率较行业主流产品高出17%,支持实时字幕生成、专业术语自定义词库功能,可直接对接企业客服、线上会议等场景的需求;
  • 音频生成模型:仅需10秒人声样本即可完成音色复刻,支持8种常见情绪表达,语音拟真度达92%,可应用于有声书制作、智能硬件语音助手等领域;
  • 图像生成模型:主打低算力消耗,在消费级GPU上即可实现1024*1024分辨率图像的秒级生成,内容合规率较同类产品提升32%,大幅降低中小客户的使用门槛。

强化自研能力,完善产品矩阵

  作为最早布局生成式AI的科技巨头之一,微软此前凭借Azure云服务+OpenAI产品的组合,已经拿下全球企业级AI服务市场近40%的份额。此次推出自研基础大模型,一方面是为了覆盖OpenAI产品暂未触达的中低端平价场景,完善产品矩阵的覆盖度;另一方面也将逐步降低微软对OpenAI的技术依赖,强化自身在AI产业链中的话语权。

本文转载自新浪网, 作者:新浪网, 原文标题:《 微软发布三款全新基础大模型 打响多模态AI赛道卡位战 》, 原文链接: http://k.sina.com.cn/article_7857201856_1d45362c0019040x9w.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅