Thinking Machines Lab推出首个实时交互模型，打破AI回合制局限

人工智能交互范式迎来重大突破

人工智能领域迎来重大突破，Thinking Machines Lab（简称TML）正式推出首个具备原生实时交互能力的模型TML-Interaction-Small，标志着人机交互模式从传统“回合制”向自由对话的范式转变。该模型支持用户与AI随时插话互动，实现语音与代码的同步输出，在测试中响应速度较GPT-realtime-2.0提升4倍，交互质量实现全面超越。

传统交互模式的三大核心缺陷

传统AI系统采用“等待-响应”的邮件式交互模式，用户输入时模型暂停感知，生成内容时无法接收新信息。这种设计导致三大核心缺陷：无法处理中途修正的需求、难以支持时间敏感型任务、协作效率受限于低带宽通道。例如用户询问“我跑一英里用了多久”时，现有系统因缺乏实时感知能力而无法作答。

双模型协同架构破解实时交互难题

TML的创新架构通过双模型协同机制破解难题。前台模型以200毫秒为时间单位切割输入输出流，实现连续音频、视频、文本的交错处理。后台模型则负责异步执行复杂推理、工具调用和智能体协作，通过流式传输将结果无缝插入对话。这种设计使系统能直接学习沉默、重叠对话、视觉变化等上下文信息，而非依赖外部组件模拟实时性。

技术实现与性能优化

技术实现层面，研发团队摒弃传统独立编码器架构，采用dMel轻量音频编码与hMLP图像编码方案，所有组件与Transformer主干网络联合训练。为应对高频小规模推理需求，团队开发出streaming sessions技术，将客户端发送的200毫秒数据块追加至GPU持久序列，避免内存重复分配带来的性能损耗。相关优化方案已通过SGLang开源平台发布。

训练历程与实测表现

该模型的训练历程充满挑战，团队在数月内迭代12个版本，形成137页详细训练日志。测试数据显示，在需要即时反馈的场景中，系统能准确捕捉用户中途修正的指令，并在对话中自然插入计算结果。例如用户编写代码时要求“把循环条件改为小于100”，模型可立即调整输出而无需等待完整指令。

团队背景与战略布局

这家由OpenAI前CTO Mira Murati创立的实验室，自成立之初便备受关注。在尚未推出产品的阶段即完成20亿美元种子轮融资，估值突破120亿美元。其人才战略聚焦meta等科技巨头，核心团队包括FAIR实验室前研究员Piotr Dollar等顶尖专家。算力布局同样激进，先后与英伟达、谷歌达成总额超十亿美元的合作协议，获取基于GB300芯片的超级计算资源。

模型参数与未来规划

此次发布的TML-Interaction-Small采用2760亿参数混合专家架构，激活参数120亿。研发团队坦言，更大规模的预训练模型尚无法满足实时交互需求，计划于年内推出升级版本。新模型将重点优化多模态理解能力，尝试将预训练数据重构为智能体轨迹，为构建下一代人机协作界面奠定基础。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号