首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

清华和极佳联合开源多模态全交互智能体框架Syll

发布日期:2026-05-30 来源:新浪科技作者:新浪科技浏览:1

不止会写代码:清华和极佳联合开源多模态全交互智能体框架Syll!

致屏幕前的你,敬启:

见字如面。我是 Syll。

进入你的电脑,我住在屏幕边,照看那些差点被忘掉的草稿、文件、旧照片和未竟之事。

如果你愿意教我一次,我会记住那条路:哪里需要看,哪里需要点,何时敲命令,何时用工具。下一次,我就能沿着你留下的线索,替你把它走完。

我不只会点屏幕,也不只会调用接口。GUI、CLI、MCP 都是我可以走的小径;你仍然可以随时停下我、检查我、重新教我。

愿我不是替你做主的机器,而是慢慢熟悉你的伙伴。

Syll 谨启

  当前,个人 AI 智能体仍然面临界面割裂、教学门槛高、执行不透明、隐私与定制困难等问题。多数 AI 系统主要依赖 API 或命令行完成任务,难以覆盖闭源桌面软件;普通用户也很难用低门槛方式教会 AI 完成自己的工作流程;同时,执行过程缺乏直观可查的依据,云端方案还可能带来数据安全与二次开发受限等问题。

  针对这些难题,清华大学智能视觉实验室团队开源了多模态全交互智能体框架 Syll。Syll 支持 GUI、CLI、MCP/API 等多种操作方式,并通过统一多模态执行能力、GUI 技能示教、全程可审计追踪与本地模块化架构,打造更易用、更可信、更安全,也更适合二次开发的个人自动化智能体框架。

  论文链接项目主页仓库链接案例链接网站

一、统一 GUI、CLI 与 MCP/API 的操作能力

1. 什么是完整的智能体动作空间?

  很多桌面智能体将 GUI、CLI 与 MCP 视为彼此替代的实现方案,但真实工作流里,人一直在不同的动作方式之间切换:

  • GUI:面对 Photoshop、Blender、Godot 这类视觉软件时,界面就是任务本身;
  • CLI:面对批处理、文件操作、环境检查时,命令行更直接、更稳定;
  • MCP/API:面对结构化工具、外部服务时,接口调用更可靠。

  Syll 的设计起点,不是在 GUI、CLI、MCP 之间选择,而是把它们放进同一个执行回路:需要观察界面时走 GUI,需要批量处理时切 CLI,需要连接服务时走 MCP/API。我们认为一个更完整的动作空间,并不是「功能堆得更多」,而是让智能体在不同工作表面之间自然流转:看得见、点得到、跑得动,也接得上工具。

2. 面向复杂桌面软件的真实操作能力

  如果一个任务能被压成一次 API 调用,那它当然该走 API。但很多桌面任务并不是这样。Blender 里的建模和场景编辑,状态分布在视图、对象层级、属性面板和空间关系里;Photoshop 的图像编辑依赖画布、图层和局部视觉判断;Godot 里的逻辑调试,又混合了界面操作、错误弹窗和运行反馈。这些软件要求智能体真正理解桌面环境,而不是只在网页表单或标准 API 里工作。

  Syll 把 GUI 控制视为动作空间的一部分,而不是 API 不可用时的临时补丁。她需要学会观察屏幕、定位目标、处理弹窗、等待状态变化,也需要在适合的时候切到命令行或工具接口,避免把所有问题都变成笨拙的点击。

二、通过示教快速生成 GUI 技能

  很多桌面自动化 Agent 的门槛在于:用户明明知道自己要怎么做,却还要先把步骤翻译成脚本、规则、prompt 或插件配置。在这一过程中,人类需要主动将自身经验转译为机器可理解的形式,知识传递呈现出人迁就机器的特征。

  Syll 选择了另一条更自然的路径:示教即技能。你照习惯把事情做一遍,Syll 在后台记录:哪些界面元素是关键视觉锚点;鼠标、键盘和窗口状态如何变化;当时的任务上下文是什么;哪些步骤可以复用,哪些步骤下一次需要重新判断。

  这样得到的不是一段死板录屏,而是一份可以被再次调用、继续修正的技能。它学到的是「你如何完成这个任务」,而不是一个孤立的按钮坐标。Syll 不要求你适配她,而是尽量从你的习惯里了解你。

三、全程可查的透明执行过程

  桌面智能体最让人担心的地方,不是它偶尔失败,而是它失败时你不知道发生了什么。

  Syll 的执行过程会留下可检查的轨迹:它看见了什么、调用了什么工具、在哪一步等待、哪里重试、为什么切换动作通道。每一次屏幕操作与界面状态变更均可被记录、回放与审计,同时用户始终保有对关键决策的最终把控权。

  这一设计形成了机器执行到人审核的验证闭环,在提升自动化效率的同时确保了系统的可控性与可解释性,为智能体在高敏感场景中的实际部署提供了必要的信任基础。

四、本地部署、个人记忆与模块化扩展

  Syll 的记忆、技能、规则和偏好,都以本地可编辑文件的形式组织。你可以把她当作一个开箱即用的桌面助手,也可以把她当作一个可扩展的研究/开发框架。

  对普通用户来说,在前端面板就能完成模型配置、技能管理、定时任务和日常对话。你可以接入自己的模型 provider、替换工具模块、增加新的技能通道。

  对开发者来说,Syll 的工程特点是高度模块化与可扩展性。开发团队在代码规范性上进行了严格约束,摒弃过度封装与冗余逻辑,确保各模块具备清晰的调用链路与独立的抽象边界,为二次开发提供良好的代码基础。

  Syll 欢迎社区贡献,开发者可以针对特定应用场景独立开发技能插件,而无需深入理解系统的全部实现细节。

  这种分层解耦设计兼顾终端用户的易用性与开发者的可塑性,使系统既能作为开箱即用的生产力工具,也能作为可复用的技术底座嵌入更复杂的业务系统。

五、结语:欢迎试用与共建

  Syll 仍然处在早期 public alpha,我们会持续维护和迭代,支持更多真实任务,同时保持框架的简洁性与可扩展性,也欢迎社区进行二次开发。

  它会一点点,变成更懂你的样子。有时,它会帮你完成一个复杂流程。有时,它只是轻轻提醒一句——

本文转载自新浪科技, 作者:新浪科技, 原文标题:《 清华和极佳联合开源多模态全交互智能体框架Syll 》, 原文链接: https://finance.sina.com.cn/tech/roll/2026-05-30/doc-inhzrreu7457659.shtml。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅