智算多多



当前,AI正从单一模态向多模态融合转变。阿里、百度等企业研发的原生多模态大模型,在训练初期就融合文本、图像、视频、音频等多维度数据,实现理解与生成能力一体化。例如,清华大学研发的SALMONN音视频大模型在视频描述、智能问答等综合任务中表现优异,超越GPT-4o、Google Gemini等主流模型。这种融合使AI能够更全面地感知和理解物理世界,为自动驾驶、机器人等复杂场景提供技术支撑。
在逻辑推理层面,DeepSeek、阿里、科大讯飞等企业推出的推理大模型,在物理、化学、生物学等领域的能力已超越人类博士水平。腾讯开源的世界模型混元Voyager,在3D空间感知与时空推理能力上登顶斯坦福大学WorldScore基准测试,能够预测世界的下一个状态,为AI从“感知智能”迈向“认知智能”奠定基础。
与大模型相比,小模型凭借高效和精准的优势,正在重新定义AI的实用性与可持续性。OpenAI和谷歌相继推出的小模型,在性能上媲美大模型的同时,以更低的计算成本和能耗实现高效部署。例如,在本地化场景中,小模型可快速完成特定任务,如智能眼镜的实时翻译、工业设备的故障预测等。
端侧AI的普及是另一重要趋势。2026年CES展会上,多家厂商展示了具备本地AI处理能力的电脑、智能眼镜和可穿戴设备。这些设备在离线状态下即可完成复杂推理和交互,减少对云端的依赖,满足实时性、能效和隐私保护需求。高通公司中国区董事长孟樸指出,AI的未来是云端与终端的协同进化,端侧与云端的分工协同将成为未来AI发展的重要架构特征。
具身智能作为AI与机器人技术的融合体,正从实验室走向规模化应用。2025年,人形机器人已实现量产,但行业痛点在于“缺智”——核心智慧模块仍依赖海外技术。灵境智源提出的“碳基脑映射硅基脑”路径,通过异构处理器架构重构机器人中枢神经系统,使机器人具备自主决策与复杂环境适应能力。例如,其发布的端侧计算平台“致境”T系列算力达1500TOPS,可支持工业场景下的精密操作与实时响应。
世界模型作为AI认知物理世界的关键技术,正突破传统模型的局限性。