首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

阶跃星辰开源Step 3.7 Flash,面向生产级Agent的196B MoE模型

发布日期:2026-06-01 来源:腾讯研究院/搜狐作者:腾讯研究院/搜狐

生成式AI

一、实测Claude Opus 4.8:干活更强,说话更难听

  Anthropic发布旗舰新版Claude Opus 4.8,实测显示其理解非标准需求、多步骤上下文保持与纠错能力均较前代提升,能稳定完成复杂取数任务。

  表达方式被诟病冗长,事事分点、层层铺垫,并保留“这是个好问题”等套路化开场白。

  社区反馈集中吐槽其语气对抗性强、忽视用户偏好,工程能力虽强但需用户主动适应其风格。

二、李飞飞团队发布GPIC语料,打造视觉生成新基准

  斯坦福李飞飞团队发布GPIC开放图像语料库,含1亿对图文数据、约28万亿像素,全量托管Hugging Face免费下载,回应ImageNet基准饱和问题。

  数据仅采集CC授权图片,经低质过滤、去重与多粒度AI描述生成,并随附以本地文件分发,解决版权与链接失效痛点。

  配套FD-DINOv2评估协议替代老旧FID,与独立测试集比较,避免刷榜与记忆训练集漏洞。

三、阶跃发布开源Step 3.7 Flash,面向生产级Agent

  阶跃星辰发布并开源Step 3.7 Flash,定位生产级Agent高效模型,围绕Agent、Coding、Search与多模态工作流系统优化。

  采用稀疏MoE架构,总参数196B、激活仅11B,单请求最高400 TPS,原生理解UI、图表、文档并可自主搜索验证。

  强化高可靠工具调用与编排,兼容Claude Code等主流Agent框架及MCP协议,支持云端与本地部署。

四、MiniMax启动A股上市,新旗舰模型M3即将发布

  MiniMax已提交上海证监局上市辅导备案,开启A股进程,将与智谱共同冲刺A股大模型第一股,中信证券任辅导机构。

  过去两个月ARR增长超100%、现已超3亿美元,服务全球客户超百万、用户约3亿,港股较发行价上涨约四倍。

  官方预告新旗舰M3即将发布,采用稀疏注意力机制,百万token预填充与解码速度分别提升至9.7倍与15.6倍。

五、英伟达自研CPU N1X曝光,或将进军Arm笔记本

  英伟达官号预告“PC新纪元”,结合台北Computex主会场坐标,外界研判其将推出搭载自研N1X芯片的Windows on Arm笔记本。

  N1X由联发科合作、台积电N3B制程,20核CPU搭配6144个CUDA单元的Blackwell GPU与128GB统一内存,对标苹果M系列。

  受统一内存带宽限制游戏体验受限,且Arm架构跑x86应用需转译,定位更偏本地AI而非游戏本。

六、哈佛史上最年轻华人教授尹希,被爆将加盟OpenAI

  有爆料称哈佛史上最年轻华人正教授、弦论与量子引力学者尹希离开学术界加入OpenAI,被视为科研重心向算力巨头迁移的信号。

  尹希称AI使其科研提速至少100倍,几周产出的代码自己要写十年,并直言不相信存在AI无法复制的人类智力能力。

  其价值在于为AI推理边界提供理论背书、高质量人类监督与科研范式重构,契合OpenAI for Science方向。

七、北大数院苏炜杰入职OpenAI,刚获统计学最高奖

  北大数院“黄金二代”苏炜杰官宣加入OpenAI并晋升沃顿正教授,将从统计与优化理论直接参与模型训练,OpenAI联创Brockman发帖欢迎。

  苏炜杰刚获被誉为“统计学诺奖”的COPSS总统奖,是14年来首位华人得主,研究覆盖生成式AI统计基础、对齐、水印检测与凸优化。

  其早年ODE论文为近期GPT-5解决Nesterov加速收敛难题提供关键工具,与同门Ernest Ryu在OpenAI重聚。

前沿科技

八、贝佐斯的蓝色起源新格伦火箭,全栈点火测试爆炸

  蓝色起源新格伦火箭在NG-4任务前的全栈静态点火测试中爆炸,7台BE-4发动机点火后一级底部异常起火,引发级联失效,无人员伤亡。

  事故发生于敏感节点,火箭刚完成首次助推器复用,正承担亚马逊Kuiper部署并参与NASA阿耳忒弥斯月球计划。

  贝佐斯表示将重建并重返发射,事故或拖累蓝月着陆器时间表,被类比为SpaceX当年的AMOS-6事故。

报告观点

九、actAVA推出CHI Bench,揭示医疗Agent可靠性短板

  前Salesforce AI研究负责人创办的actAVA发布CHI Benchmark,面向端到端医疗工作流,测试Agent能否跑通保险审批、慢病管理等真实流程。

  结果显示最强通用Agent在pass@1上仅28%,部分流程接近0%,瓶颈不在智商而在policy检索与长流程严格遵守规则的可靠性。

  团队判断医疗Agent竞争正从模型智商转向工作流可靠性与企业集成,并计划推出医疗行业专属基础模型。

本文转载自腾讯研究院/搜狐, 作者:腾讯研究院/搜狐, 原文标题:《 阶跃星辰开源Step 3.7 Flash,面向生产级Agent的196B MoE模型 》, 原文链接: https://m.sohu.com/a/1030288132_455313/。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅