首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

Thinking Machines Lab推出首个实时交互模型,打破AI回合制局限

发布日期:2026-05-12 来源:ITBear科技资讯作者:ITBear科技资讯浏览:2

人工智能交互范式迎来重大突破

  人工智能领域迎来重大突破,Thinking Machines Lab(简称TML)正式推出首个具备原生实时交互能力的模型TML-Interaction-Small,标志着人机交互模式从传统“回合制”向自由对话的范式转变。该模型支持用户与AI随时插话互动,实现语音与代码的同步输出,在测试中响应速度较GPT-realtime-2.0提升4倍,交互质量实现全面超越。

传统交互模式的三大核心缺陷

  传统AI系统采用“等待-响应”的邮件式交互模式,用户输入时模型暂停感知,生成内容时无法接收新信息。这种设计导致三大核心缺陷:无法处理中途修正的需求、难以支持时间敏感型任务、协作效率受限于低带宽通道。例如用户询问“我跑一英里用了多久”时,现有系统因缺乏实时感知能力而无法作答。

双模型协同架构破解实时交互难题

  TML的创新架构通过双模型协同机制破解难题。前台模型以200毫秒为时间单位切割输入输出流,实现连续音频、视频、文本的交错处理。后台模型则负责异步执行复杂推理、工具调用和智能体协作,通过流式传输将结果无缝插入对话。这种设计使系统能直接学习沉默、重叠对话、视觉变化等上下文信息,而非依赖外部组件模拟实时性。

技术实现与性能优化

  技术实现层面,研发团队摒弃传统独立编码器架构,采用dMel轻量音频编码与hMLP图像编码方案,所有组件与Transformer主干网络联合训练。为应对高频小规模推理需求,团队开发出streaming sessions技术,将客户端发送的200毫秒数据块追加至GPU持久序列,避免内存重复分配带来的性能损耗。相关优化方案已通过SGLang开源平台发布。

训练历程与实测表现

  该模型的训练历程充满挑战,团队在数月内迭代12个版本,形成137页详细训练日志。测试数据显示,在需要即时反馈的场景中,系统能准确捕捉用户中途修正的指令,并在对话中自然插入计算结果。例如用户编写代码时要求“把循环条件改为小于100”,模型可立即调整输出而无需等待完整指令。

团队背景与战略布局

  这家由OpenAI前CTO Mira Murati创立的实验室,自成立之初便备受关注。在尚未推出产品的阶段即完成20亿美元种子轮融资,估值突破120亿美元。其人才战略聚焦meta等科技巨头,核心团队包括FAIR实验室前研究员Piotr Dollar等顶尖专家。算力布局同样激进,先后与英伟达、谷歌达成总额超十亿美元的合作协议,获取基于GB300芯片的超级计算资源。

模型参数与未来规划

  此次发布的TML-Interaction-Small采用2760亿参数混合专家架构,激活参数120亿。研发团队坦言,更大规模的预训练模型尚无法满足实时交互需求,计划于年内推出升级版本。新模型将重点优化多模态理解能力,尝试将预训练数据重构为智能体轨迹,为构建下一代人机协作界面奠定基础。

本文转载自ITBear科技资讯, 作者:ITBear科技资讯, 原文标题:《 Thinking Machines Lab推出首个实时交互模型,打破AI回合制局限 》, 原文链接: http://m.itbear.com.cn/html/2026-05/1334984.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅