智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


米哈游创始人蔡浩宇退休后的第二家公司,终于放出了点东西。
4月9日,他在新加坡创立的Anuttacon团队在arXiv发了篇论文,公开了视频角色表演生成模型LPM 1.0。170亿参数,主打一个功能:让虚拟角色能听、能看、能演,实时生成带表情和动作的对话视频。
这事的微妙之处在于,蔡浩宇去年说过"AIGC将彻底改变游戏开发,普通人建议转行"。现在他自己下场做的,正是那个可能让一批人转行的工具。
LPM 1.0的技术路线不算新鲜——扩散Transformer架构,业内叫DiT,Sora、可灵都在用。但它的切口很刁钻:不做通用视频生成,专攻"角色表演"。论文里提了个"表演三难":高表现力、实时推理、长时稳定,三者很难兼得。他们的解法是把问题拆细,只盯单人全双工对话场景,用严格筛选的说话-倾听音视频数据训练,再塞进身份感知的多参考提取机制。
翻译成人话:你给一张角色图,它就能根据语音或文字,实时生成这个角色在说话或倾听的视频,身份不会崩,长度可以无限续。延迟低到能接ChatGPT、豆包这类语音模型做实时对话。
应用场景写得明明白白:对话AI智能体、游戏NPC、虚拟主播、教育陪伴。换句话说,蔡浩宇想做的是虚拟角色的"视觉引擎",让以后的NPC不用预录动画,能即兴表演。
但有个细节挺有意思:论文明确说,模型仅供非商业学术使用,不会开源,不会提供API,没有任何对外服务的计划。Anuttacon去年上线的AI游戏《星之低语》也是类似路数——做出来给你看,但不给你用。
这种"技术展示但产品封闭"的策略,在游戏圈和AI圈都不少见。毕竟训练成本摆在那,170亿参数的模型,推理开销不是小团队能随便接的。更现实的问题是:如果这套系统真能做到论文宣称的效果,米哈游自家的下一款游戏,NPC交互方式可能会先变。
项目主页放了一段演示视频。评论区有人问了句:"所以《原神》里的派蒙,以后能看着我的眼睛说话了?"
