首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

阶跃星辰Step 3.7 Flash开源模型拿下Artificial Analysis榜单第一

发布日期:2026-06-05 来源:智东西/搜狐作者:智东西/搜狐

一、智能体风口,低效痛点拖累规模化落地进程

  从年初OpenClaw、Hermes接连出圈,到OpenAI联合创始人、CEO萨姆·奥尔特曼(Sam Altman)昨晚直播直言:全天候主动式Agent是未来一年头号布局方向,智能体热潮已势不可挡。

  但这背后使其落地硬伤愈发凸显,居高不下的无效token损耗、低效运行难题持续困扰大批一线开发者,拖慢其项目落地节奏。

  效率层面,在Cursor社区,有开发者吐槽其智能体在执行顺序终端命令时,即便只需10毫秒即可完成的简单指令,相邻命令间仍存在约27秒冗余延迟,最终造成串行任务效率损耗高达99.95%。

Step 3.7 Flash在输出速度榜单排名第一
开发者实测时延

  密歇根大学、斯坦福大学、微软以及谷歌DeepMind等今年4月联合发布的研究进一步印证症结所在,智能体执行任务时需要反复灌入历史上下文,使得模型输入输出token消耗比例高达154:1。

智能体执行任务时输入输出token消耗比例
智能体执行任务时输入输出token消耗比例

  另外是成本层面,Agent自主多轮调用机制会天然放大token消耗。

  上月初,有开发者提到其在用Claude Code进行代码重构时,尚未提出正式问题,仅上下文预加载就要耗费3.5万至4万个token,甚至仅3次提示调用便耗尽原本够用4小时的token额度。

  落地到企业端,成本失控会更为突出,Uber称员工大规模使用AI编程工具后,4个月就烧掉了全年的AI预算;还有不具名的公司忘记设限,一个月在Claude上烧掉5亿美元。

  这样的效率困局折射出,业内评判Agent价值的逻辑已经变了:基础模型底子好只是前提,放到Agent场景里,模型只靠答题、单项能力远远不够,高效、少冗余、省Token、低成本跑完整套任务,才是检验模型能不能适配智能体的硬指标。

  由此,破解智能体低效困局的落脚点便聚焦到速度与性价比两大维度。

  一方面,通过提效减少Agent运行时无效等待带来的无用算力开销,让算力每一秒都能用于任务闭环;另一方面,提升模型单次执行任务的成功率,使得同等任务少消耗token、少耗时,拉高业务落地的性价比。

  当下,已经实现Agent全程跑得更快、花钱更少、产出效率更高的模型便是阶跃星辰最新开源的Step 3.7 Flash。

二、速度登顶、性价比拉满,Step 3.7 Flash释放Agent商用价值

  在Agent时代,Step 3.7 Flash交出了差异化答卷。

  先来看下Step 3.7 Flash面对复杂编程任务的实力,智东西让其生成体感打砖块游戏。Step 3.7 Flash生成的游戏能自动触发摄像头,人脸移动和挡板移动同步,击碎砖块时有特效,结束时还会震动掉落,可能在挡板接住时略有延迟,但整体已经具备很高可玩性。

  在模型底层基础能力拉满的前提下,Step 3.7 Flash在规模化落地能力上更进一步,这也对应了前文提到破解智能体低效困局的两大关键。

  首先是速度,根据官方信息,Step 3.7 Flash最高生成速度可达400 tokens/s。开发者的实测显示,Step 3.7 Flash单流生成速度为DeepSeek-V4的2.4倍;64并发峰值吞吐达到DeepSeek-V4的3.47倍,高并发场景吞吐优势显著,并且他在极端条件下甚至实现了6000 tokens/s的传输速率。

  智东西基于Step 3.7 Flash制作了一个番茄计时器,其最终生成的应用布局简洁、核心要素齐全,且这一应用生成仅花费1分钟左右一次成功。

  与此同时,开发者实测证明,在个人电脑上Step 3.7 Flash的速度没有大幅缩减。Step 3.7 Flash的4bit量化版仅需128GB Apple Silicon设备便可满载32K上下文,在Mac Studio环境下基准测试生成速度超53 tokens/s。

  根据Artificial Analysis的数据,Step 3.7 Flash的表现已经接近Agent商业化落地的最优区间,兼得高智能和超高速率。

  其次是高性价比,Step 3.7 Flash综合推理、输入上下文、工具调用、Agent多轮交互等全场景后的综合单价为每百万token 0.2美元(约合人民币1.35元),与此前官宣永久降价的DeepSeek、小米MiMo持平,均位列榜单第一。

Step 3.7 Flash价格最低
Step 3.7 Flash价格最低

  基于Artificial Analysis的速度价格比分布可以看出,Step 3.7 Flash在兼具高速、低成本方面的综合实力,已然使其在Agent商业化方面具备竞争力。

  综合来看,Step 3.7 Flash在性能拉满的同时,从速度与成本双向突破,一方面凭借领先竞品的单流推理速度与高并发吞吐能力,精简任务循环损耗;另一方面显著压低个人与中小开发者的使用成本,进一步为智能体规模化落地扫清障碍。

三、综合性能跻身全球头部,阶跃已跑通Agent商业化

  当前AI行业正式进入商业化深度竞速阶段,模型在推理速率、综合性能与落地成本间实现均衡突破,成为模型规模化商用落地的核心评判标准。

  因此,从Step 3.5 Flash到Step 3.7 Flash,阶跃星辰的模型迭代路径一脉相承,其围绕Agent、Coding、Search与多模态工作流进行系统优化,解决的核心都是让Agent在真实场景中高效运行。

  这也得到全球开发者市场的真实数据验证。其两代模型发布仅两天,便纷纷在OpenRouter榜单上位居前列,Step 3.5 Flash登顶首位、Step 3.7 Flash登上OpenRouter Trending全球第二位。

  不仅如此,阶跃星辰在推理效率也已进入全球头部阵营。

  开源团队Dirac基于OpenRouter数据统计了当下主流模型的缓存命中率,其中达到S级缓存命中率的模型,清一色都是国产模型。这意味着国产模型的实力正在强势赶超。

  其中,阶跃星辰更是以86.1%的得分位列全球第二,超高的缓存命中率,正是模型推理更快、损耗更低,稳定运行的核心。

  这都证明,阶跃星辰高效率、轻量化的Flash系列模型,已经具备承接真实Agent落地的实力。

  就在上个月,Step 3.5 Flash已完成车载场景的规模化落地,其为极氪8X上构建的整车智能体"超级Eva"量产交互,打通车辆感知、语义理解、指令执行全链路。

  从模型的亮眼榜单数据到真实场景的批量商用落地,这都印证阶跃星辰产业化路径已经跑通。

结语:轻量化Flash模型,或引爆智能体规模化落地

  阶跃星辰Flash模型一定程度上解决了智能体token冗余、算力浪费、链路延迟、成本高等低效痛点,打通Agent商业化落地瓶颈。

  未来,随着企业级自动化、智能化需求持续爆发,轻量化、高效率、高性价比的Flash基座模型,或成为推动AI智能体产业规模化、商业化进阶的核心驱动力,加速智能体迈入高效落地、普惠商用的全新阶段。

本文转载自智东西/搜狐, 作者:智东西/搜狐, 原文标题:《 阶跃星辰Step 3.7 Flash开源模型拿下Artificial Analysis榜单第一 》, 原文链接: https://m.sohu.com/a/1032304351_211762/。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅