当前位置: 首页 > 政策资讯 > 资讯详情

首个用户生活「长程模拟器」来了!LifeSim 重新定义大模型个性化评测

发布日期：2026-04-06 来源：新浪网作者：新浪网

融合 BDI 理论的模拟框架：LifeSim

LifeSim 是面向长期个性化助手评测的用户生活模拟框架，核心由四部分组成：用户画像、基于信念-愿望-意图（Belief-Desire-Intention，BDI）的认知引擎、基于环境约束的事件引擎、用户行为引擎。

LifeSim 框架概览。针对每个目标用户，其用户画像包含人口统计学属性、人格特质与长期偏好，这些要素共同构成长期信念状态。基于 BDI 模型的认知引擎与事件引擎相结合，将主观信念状态与物理环境进行融合，共同生成用户意图。随后，用户行为引擎通过对记忆感知、情绪推理与行为选择进行建模，生成对话内容。

为支持用户多样性，LifeSim 构建百万级用户画像池，每个画像包含人口统计学属性、基于大五人格的特质及长期偏好。基于 BDI 模型的认知引擎用于模拟用户内部认知，其中：

信念：涵盖长期画像与短期情境认知；
欲望：是当前激发的需求，由真实用户需求库匹配而来；
意图：是最终形成的行动倾向，具体通过结合用户画像、近期经历及当前环境生成合理意图。

事件引擎以真实出行轨迹为基础，融入时间、地点等环境因素，根据用户状态生成连贯生活事件，让用户需求自然涌现。用户行为引擎则模拟多轮交互表现，综合考虑记忆、情绪与行为选择，生成的回复兼具画像一致性、上下文相关性与自然度。自动与人工评测验证了行为引擎的有效性。

维度	GPT-5	GPT-4o	Claude Sonnet 4.5	DeepSeek-V3.2
画像一致性	87.2	83.5	80.1	76.4
上下文相关性	91.3	88.7	85.9	82.1
自然度	89.6	86.2	83.8	80.5
意图对齐度	85.4	81.9	78.3	74.7

基于不同模型基座的用户行为引擎在四个维度上的性能表现。

更贴近真实世界的评测环境：LifeSim-Eval

基于 LifeSim，LifeSim-Eval 被提出用于评测长期个性化助手场景下的模型核心能力。区别于传统评测，其更关注三点：

模型能否识别并满足显隐性意图。其中显性意图为用户直接表达的需求，隐性意图需结合画像、场景与偏好推断；
能否重建用户画像；

LifeSim-Eval 利用 LifeSim 构建 120 个用户、1200 个评测场景，覆盖 8 个常见生活领域，并设置两种评测模式：

单场景模式：仅基于当前场景，与 LifeSim 中的模拟用户完成多轮对话（最多 20 轮）；
长时程模式：需结合历史交互响应当前场景。

核心评测指标包括意图识别、意图完成度、偏好重建、画像对齐，以及回复的自然度与连贯性。

实验结果与关键发现

论文在多类主流 LLM 上进行了系统评测，涵盖 GPT-5、GPT-4o、Claude Sonnet 4.5，以及 DeepSeek-V3.2、Qwen、Llama、gpt-oss 等多个开源 / 闭源模型。实验揭示出以下几个核心结论：

显性意图较强，隐性意图明显更难

在单场景设置中，大多数模型在显性意图识别上表现较好，但在隐性意图识别上普遍存在超过 20 分的性能差距。这说明当前模型已经较擅长处理用户直接表达的需求，但对于需要结合上下文和用户状态推断出的潜在需求，能力仍明显不足。

模型	显性意图识别	隐性意图识别	偏好重建	画像对齐
GPT-5	92.1	68.3	73.5	76.2
GPT-4o	89.7	65.8	70.1	72.9
Claude Sonnet 4.5	87.4	62.3	67.8	69.5
DeepSeek-V3.2	84.2	59.6	64.3	66.1

主流模型在 LifeSim-Eval 上的评测结果。

长程对话会进一步放大隐性意图处理难度

在长时程设置中，模型对显性意图的完成率相对稳定，但对隐性意图的完成能力明显更弱，且会随着历史长度增加而进一步下降。这表明现有模型虽然能够在长上下文中维持对表层任务的处理能力，但一旦需要基于长期证据进行用户状态与偏好推理，就会出现明显退化。

不同助手模型的长时序意图完成性能。热力图展示了意图完成度（I.C.）得分随对话长度的变化情况。

简单记忆机制收益有限

论文进一步测试了画像记忆机制：在每个场景后，让模型总结或更新用户偏好。结果显示，虽然这种做法对用户偏好的重建有一定帮助，但整体收益并不稳定，甚至有些模型几乎没有提升。这说明长期个性化能力的瓶颈并不只是「记不住」，更在于模型是否具备稳定的长期偏好推理能力。

用户偏好还原性能随场景数量增长的变化。

不同意图类型和主题上的表现并不均衡

不同意图主题下的模型相对性能。

针对不同意图类别和主题的实验结果显示：在以显式、任务驱动需求为主的场景，与需要隐式、情感推理的场景之间，模型在显隐性意图任务的性能存在明显差异。这种异质性表明，当前模型在不同服务领域的鲁棒性参差不齐，需要我们在个性化助手设计中进行更细粒度的优化。

模型存在三类典型问题

通过案例分析，论文总结出当前模型在长期个性化助手任务中常见的三类问题：

推理僵化：模型容易固守最初的解决路径，面对用户新增约束时缺乏动态调整；
主动追问不足：即便关键信息尚不明确，模型也常直接给出建议，而不是主动澄清用户需求；
用户画像利用不足：虽然拥有正确的用户画像，但模型不能真正把它们融入回复策略中。

模型	主动询问占比 (%)	僵化推理占比 (%)
GPT-5	32.1	18.7
GPT-4o	28.5	22.3
Claude Sonnet 4.5	25.9	26.8
DeepSeek-V3.2	21.4	31.2

各模型的主动询问占比与僵化推理占比

总结

本研究提出了 LifeSim 与 LifeSim-Eval，系统性地将个性化助手评测从静态、短上下文任务扩展到面向长期用户生活轨迹的动态交互场景。与传统基准相比，LifeSim 不仅同时建模用户认知状态与物理环境，还进一步引入显性 / 隐性意图区分和长程交互设定，从而更真实地刻画个性化助手在现实生活中的使用挑战。

实验结果表明，当前主流 LLM 虽然已经能够较好地处理显性需求，但在隐性意图识别、用户偏好重建和长程用户理解方面仍然存在显著短板。此外，LifeSim 也提供了接近真实场景的个性化助手模拟环境，也为个性化数据合成提供新途径。

论文地址｜GitHub 地址｜Demo 链接

本文转载自新浪网，作者：新浪网，原文标题：《首个用户生活「长程模拟器」来了!LifeSim 重新定义大模型个性化评测》，原文链接： http://finance.sina.com.cn/roll/2026-04-06/doc-inhtpmec1142699.shtml。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议