蔡浩宇藏了170亿参数的AI模型,游戏NPC终于不用念台词了

发布日期：2026-04-11 来源：网易作者：网易浏览：1

米哈游创始人蔡浩宇退休后的第二家公司，终于放出了点东西。

4月9日，他在新加坡创立的Anuttacon团队在arXiv发了篇论文，公开了视频角色表演生成模型LPM 1.0。170亿参数，主打一个功能：让虚拟角色能听、能看、能演，实时生成带表情和动作的对话视频。

这事的微妙之处在于，蔡浩宇去年说过"AIGC将彻底改变游戏开发，普通人建议转行"。现在他自己下场做的，正是那个可能让一批人转行的工具。

技术路线与核心突破

LPM 1.0的技术路线不算新鲜——扩散Transformer架构，业内叫DiT，Sora、可灵都在用。但它的切口很刁钻：不做通用视频生成，专攻"角色表演"。论文里提了个"表演三难"：高表现力、实时推理、长时稳定，三者很难兼得。他们的解法是把问题拆细，只盯单人全双工对话场景，用严格筛选的说话-倾听音视频数据训练，再塞进身份感知的多参考提取机制。

翻译成人话：你给一张角色图，它就能根据语音或文字，实时生成这个角色在说话或倾听的视频，身份不会崩，长度可以无限续。延迟低到能接ChatGPT、豆包这类语音模型做实时对话。

应用场景与战略意图

应用场景写得明明白白：对话AI智能体、游戏NPC、虚拟主播、教育陪伴。换句话说，蔡浩宇想做的是虚拟角色的"视觉引擎"，让以后的NPC不用预录动画，能即兴表演。

封闭策略背后的考量

但有个细节挺有意思：论文明确说，模型仅供非商业学术使用，不会开源，不会提供API，没有任何对外服务的计划。Anuttacon去年上线的AI游戏《星之低语》也是类似路数——做出来给你看，但不给你用。

这种"技术展示但产品封闭"的策略，在游戏圈和AI圈都不少见。毕竟训练成本摆在那，170亿参数的模型，推理开销不是小团队能随便接的。更现实的问题是：如果这套系统真能做到论文宣称的效果，米哈游自家的下一款游戏，NPC交互方式可能会先变。

项目主页放了一段演示视频。评论区有人问了句："所以《原神》里的派蒙，以后能看着我的眼睛说话了？"

本文转载自网易，作者：网易，原文标题：《蔡浩宇藏了170亿参数的AI模型,游戏NPC终于不用念台词了》，原文链接： https://www.163.com/dy/article/KQ7LETJH05561FZH.html。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅