智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


一个模型,六个实体:重新刻画“人机对话”的本质
IAI模型首先解决的是“如何描述人与AI的交流”,也就是描述力(Descriptive Power)。研究团队从两条最基本的人机交互路径出发——"提示词驱动生成"与"GUI直接操作产物",提炼出六个不可或缺的核心实体:人类(Human, H)、交互(Interaction, I)、文字提示(Text Prompt, T)、增强指令(Interaction-Augmented Instruction, Aug)、生成式AI(GenAI, G)、产物(Artifact, A)。
其中最关键的创新,是引入了"增强指令(Aug)"这一独立实体,代表超越文本之外的指令信息。将Aug作为AI的显式输入,让研究者与设计者能够清晰地比较不同工具在"如何把人的意图翻译成AI能理解的信息"这一核心问题上的本质差异。
现实中,交互对指令的贡献方式千差万别:有时交互只是操作文字本身,如点击替换关键词,提示词依然以纯文本直接送入AI,并未引入Aug;有时交互在操作文本之余还引入了额外的信息,如将多个提示词片段组织成层级树,组织逻辑本身被编码进Aug,送入AI;有时交互直接携带非语言信息,如手绘素描或空间标注,被编码为像素掩码、坐标范围后,与文字共同构成复合指令;有时交互直接作用于产物而不产生Aug,如拖动滑块调整色调;还有时与产物的交互结果,比如用户框选的图像区域、高亮的代码片段,作为具体引用与文字描述共同构成Aug送入AI。正是通过Aug这一实体,IAI模型得以在同一框架下精确刻画这些差异,而不是将它们笼统归入"非文本交互"的宽泛标签。
最终,研究团队在严格的语义原则约束下保留了12条有意义的实体间关系,构建出一张既简洁、精确又富有表达力的实体-关系图,将纷繁复杂且场景多样的人机交互流程"翻译"成可比较、可分析的结构化语言。
基于IAI模型,研究团队系统梳理了66个结合了提示词与图形交互的AI工具,将每个工具的交互流程分解为一个或多个"原子范式图",并归纳出12种具有代表性的原子交互范式 (P1-P12),充分验证了IAI模型的精准区别不同交互方式的能力,也就是判别力(Discriminative Power)。
以生成杂志封面的任务为例,可以看到不同范式的差异变得清晰可感。在使用AI执行生成任务之前:
唤醒AI执行一次生成任务之后,交互范式更加丰富多样:
这些范式不仅解释了现有工具的设计差异,更为未来相关技术与服务提供了一套可复用、可组合的“设计词典”。
IAI模型的第三重价值,在于其生成力(Generative Power)。该能力不仅能分析已有范式,还能设计出全新的交互方式。比如应用IAI模型推导新场景下的交互范式,微调范式图结构,精化现有工具的交互设计,或者借助IAI模型推演全新的原子范式。
研究团队从P11范式(基于产物的提示词增强)出发,通过"反转"对话发起方,推演出一种尚未被充分探索的AI主动发起交互的新范式。想象一下,当你走进食堂,AR眼镜中的个人AI助理可基于环境感知与用户历史偏好,主动推送个性化饮食建议,并提供可调节荤素比例的结构化控件,而这整个过程都无需用户发起请求。这一应用场景,正是IAI模型从已有范式中"推导"出来的,指向了更主动、更情境感知的人机协作新方向。
从早期的“命令行”到图形界面的“直接操纵”,人机交互的演进本质上是在不断降低表达意图的门槛。生成式AI的出现带来了前所未有的能力上限,而 IAI模型则为其提供了一套更精准、更灵活的“神经接口”。
这项研究也预示着一个重要的转变,人机交互设计正在从“提示词工程(Prompt Engineering)”走向更具包容性的“指令设计(Instruction Design)”。 未来,IAI模型有望成为全球AI开发者、产品经理与交互设计师的通用语言,推动构建更加透明、可控且富有创造力的人机协同范式。
