当前位置: 首页 > 行业资讯 > 资讯详情

半壁华人！GPT Image 2团队曝光：无锡才俊带队，13人4个月封神

发布日期：2026-04-24 来源：量子位作者：量子位浏览：3

GPT image2主网刷屏，但效果究竟为什么这么好？

　　但他又拒绝回答是否采用扩散模型或自回归技术，只是神秘的将其描述为“通用模型”或“图像领域的GPT”。

　　陈博远的一条推文还透露，从去年12月底的GPT Image 1.5算起，只用了四个月就有如此大的改进。

　　这样突破性的成果，核心团队只有13人。

　　评论区有网友感叹：怎么全是亚洲人？

陈博远：从不懂Python到Research Lead

　　OpenAI恐怕很长一段时间都不会公布了，但从核心团队成员的学术经历可以看出一痕迹。

　　他博士期间的代表作Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion入选了NeurIPS 2024。

　　这项研究提出Diffusion Forcing这一全新序列生成训练范式，将逐token独立噪声级扩散与因果下一个token预测结合，融合自回归模型的可变长度生成与全序列扩散模型的长程引导优势。

　　他在谷歌实习期间还以共同一作身份发表了SpatialVLM。

　　通过自动构建互联网规模的3D空间推理 VQA 数据集（1000 万图像、20 亿 QA 对），为视觉语言模型赋予定量 / 定性空间推理能力，可从单张 2D 图像输出米制距离、尺寸、方位等精确数值。

　　这项研究把思维链空间推理应用到了具身智能领域。

　　他在高中参加科研夏令营时，还不懂Python的基本语法，那时结识的谷歌DeepMind资深研究员夏斐把他引入了AI世界。

　　夏斐两次邀请他到DeepMind完成高质量实习，这些经历使陈博远积累了大规模模型训练的工程经验，也为他理解多模态系统的数据需求提供了宝贵视角。

　　博士毕业后，陈博远于2025年6月加入OpenAI，迅速成为GPT图片生成五人核心成员之一，负责GPT图像生成模型的所有训练，同时也是Sora视频生成团队的一员。

　　在演示中，他给家乡无锡做了一张海报。然后为来自首尔的队友做韩文海报，为来自Bangladesh的队友做孟加拉语海报。每一张中的文字渲染都精准无误。

中科大Jianfeng Wang：让生图AI理解世界知识

　　中科大博士毕业的Jianfeng Wang，在GPT Image 2团队负责的是另一个让人惊叹的能力：指令遵循和理解世界。

　　旧模型画的永远时钟永远指向10:10，源于网络上的钟表广告图，几乎清一色都是10:10。

　　为钟表厂商找心理学家做过实验，认为这有助于刺激消费者买表的意愿。

　　2:25、3:30、9:10、7:45，基本精准。

　　复杂的空间布局，苹果在中心、杯子在右边、书在上面、相机在左边、篮球在下

全部精准执行。

　　在加入OpenAI之前，他在微软工作近9年。在微软期间就与OpenAI有合作，研究方向包括语义分割、以及视觉表征学习等方向。

　　JianFeng Wang在演示视频结尾说到：GPT Image 2正在消除你的意图和模型产出之间的差距。

　　真正做到你想要什么，模型就给你什么。

　　在GPT Image 2的发布活动中演示了生图能力——比如把论文拖进ChatGPT，自动生成信息图。

　　他的经历说是团队成员中最丰富的，每换一个工作都是跨界，但都聚焦机器学习。

　　本科在浙大竺可桢学院学的工程，博士在约翰斯霍普金斯大学期间学的是计算化学与机器学习。

　　他第一份全职工作是量化分析师，在清华做访问研究员期间研究的是用于纳米机器人的强化学习和控制算法。

　　后来他在亚马逊做过Alexa语音研究。

　　2025年初加入OpenAI后，除了图像生成还参与过ChatGPT智能体项目。

　　他在个人账号上介绍GPT Image 2的信息图生成能力，可以为科研人员节省大量时间。

从DALL-E到GPT Image 2.0：一支不断进化的团队

　　从团队成员Kenji Hata的自我介绍中得知，GPT Image 1.0也就是GPT-4o的图像生成部分。

　　他从DALL-E开始参与了OpenAI多模态系列研究的全程。

　　从2019年加入OpenAI，他的早期研究更偏理论，专注于可解释性和凸优化等等。

　　看到另一位团队成员Weixin Liang的研究履历，GPT Image 2的技术底色又揭开了一角。

　　他在Meta实习期间的代表作Mixture-of-Transformers，引入模态解耦的MoE和解耦注意力，显著降低多模态模型预训练的计算成本。

　　他博士毕业于斯坦福，本科也毕业于浙大竺可桢学院，不过比Yuguang Yang要晚好几年。

　　Weixin Liang与陈博远一样都是2025年博士刚毕业就加入OpenAI，迅速成为团队的核心成员。

Ayaan Haque，之前在Luma AI工作，参与过Luma的视频生成基础模型Dream Machine的训练。
Bing Liang，在Google干了5年多，参与Imagen3、Veo、Gemini Multimodal，2025年跳到OpenAI做图像生成研究。
Mengchao Zhong，本科上海交通大学校友，硕士毕业于得克萨斯农工大学，在Pinterest和Airtable做过软件工程师，在OpenAI负责多模态产品的工程。
Dibya Bhattacharjee，耶鲁大学，2015年IPhO铜牌，CIE A-Level数学和生物全球最高分。
Kiwhan Song是2025年10月最晚加入的，除了做研究之外，他还是团队里的提示词大师，大家看到的官方演示图很多都出自他手。

　　从最早的DALL-E到今天的GPT Image 2.0，这支团队先后解决了：画得出来、画得清楚、画得好看、画得准。

　　尽管近年来OpenAI的人才流动很大，但OpenAI还是那个能不断吸引各种有个性的人才，不限制专业、欢迎跨界，信奉自下而上涌现式研究的公司。

提示词示例

　　那么这种画风的提示词是什么？团队成员也公布了出来：

Use my photo only for identity. Redraw me as a very simple surreal Japanese style.

本文转载自量子位，作者：量子位，原文标题：《半壁华人！GPT Image 2团队曝光：无锡才俊带队，13人4个月封神》，原文链接： http://m.toutiao.com/group/7631846405044224550/。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号