智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 但他又拒绝回答是否采用扩散模型或自回归技术,只是神秘的将其描述为“通用模型”或“图像领域的GPT”。
陈博远的一条推文还透露,从去年12月底的GPT Image 1.5算起,只用了四个月就有如此大的改进。
这样突破性的成果,核心团队只有13人。
评论区有网友感叹:怎么全是亚洲人?
OpenAI恐怕很长一段时间都不会公布了,但从核心团队成员的学术经历可以看出一痕迹。
他博士期间的代表作Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion入选了NeurIPS 2024。
这项研究提出Diffusion Forcing这一全新序列生成训练范式,将逐token独立噪声级扩散与因果下一个token预测结合,融合自回归模型的可变长度生成与全序列扩散模型的长程引导优势。
他在谷歌实习期间还以共同一作身份发表了SpatialVLM。
通过自动构建互联网规模的3D空间推理 VQA 数据集(1000 万图像、20 亿 QA 对),为视觉语言模型赋予定量 / 定性空间推理能力,可从单张 2D 图像输出米制距离、尺寸、方位等精确数值。
这项研究把思维链空间推理应用到了具身智能领域。
他在高中参加科研夏令营时,还不懂Python的基本语法,那时结识的谷歌DeepMind资深研究员夏斐把他引入了AI世界。
夏斐两次邀请他到DeepMind完成高质量实习,这些经历使陈博远积累了大规模模型训练的工程经验,也为他理解多模态系统的数据需求提供了宝贵视角。
博士毕业后,陈博远于2025年6月加入OpenAI,迅速成为GPT图片生成五人核心成员之一,负责GPT图像生成模型的所有训练,同时也是Sora视频生成团队的一员。
在演示中,他给家乡无锡做了一张海报。然后为来自首尔的队友做韩文海报,为来自Bangladesh的队友做孟加拉语海报。每一张中的文字渲染都精准无误。
中科大博士毕业的Jianfeng Wang,在GPT Image 2团队负责的是另一个让人惊叹的能力:指令遵循和理解世界。
旧模型画的永远时钟永远指向10:10,源于网络上的钟表广告图,几乎清一色都是10:10。
为钟表厂商找心理学家做过实验,认为这有助于刺激消费者买表的意愿。
2:25、3:30、9:10、7:45,基本精准。
复杂的空间布局,苹果在中心、杯子在右边、书在上面、相机在左边、篮球在下
全部精准执行。
在加入OpenAI之前,他在微软工作近9年。在微软期间就与OpenAI有合作,研究方向包括语义分割、以及视觉表征学习等方向。
JianFeng Wang在演示视频结尾说到:GPT Image 2正在消除你的意图和模型产出之间的差距。
真正做到你想要什么,模型就给你什么。
在GPT Image 2的发布活动中演示了生图能力——比如把论文拖进ChatGPT,自动生成信息图。
他的经历说是团队成员中最丰富的,每换一个工作都是跨界,但都聚焦机器学习。
本科在浙大竺可桢学院学的工程,博士在约翰斯霍普金斯大学期间学的是计算化学与机器学习。
他第一份全职工作是量化分析师,在清华做访问研究员期间研究的是用于纳米机器人的强化学习和控制算法。
后来他在亚马逊做过Alexa语音研究。
2025年初加入OpenAI后,除了图像生成还参与过ChatGPT智能体项目。
他在个人账号上介绍GPT Image 2的信息图生成能力,可以为科研人员节省大量时间。
从团队成员Kenji Hata的自我介绍中得知,GPT Image 1.0也就是GPT-4o的图像生成部分。
他从DALL-E开始参与了OpenAI多模态系列研究的全程。
从2019年加入OpenAI,他的早期研究更偏理论,专注于可解释性和凸优化等等。
看到另一位团队成员Weixin Liang的研究履历,GPT Image 2的技术底色又揭开了一角。
他在Meta实习期间的代表作Mixture-of-Transformers,引入模态解耦的MoE和解耦注意力,显著降低多模态模型预训练的计算成本。
他博士毕业于斯坦福,本科也毕业于浙大竺可桢学院,不过比Yuguang Yang要晚好几年。
Weixin Liang与陈博远一样都是2025年博士刚毕业就加入OpenAI,迅速成为团队的核心成员。
从最早的DALL-E到今天的GPT Image 2.0,这支团队先后解决了:画得出来、画得清楚、画得好看、画得准。
尽管近年来OpenAI的人才流动很大,但OpenAI还是那个能不断吸引各种有个性的人才,不限制专业、欢迎跨界,信奉自下而上涌现式研究的公司。
那么这种画风的提示词是什么?团队成员也公布了出来:
Use my photo only for identity. Redraw me as a very simple surreal Japanese style.
