
AdaMARP团队 投稿
量子位 | 公众号 QbitAI
AI能已毕真确的千里浸式献艺了。
大语言模子在脚色献艺任务上阐扬速即,但现存系统不时艰涩千里浸感和恰当性:
环境信息未被充分建模,场景与脚色也多为静态,难以缓助多角颜色度、场景切换、动态引入新东说念主等复杂叙事需求。
当今,浙江大学结伴腾讯优图实验室提议AdaMARP(Adaptive Multi-Agent Interaction Framework for General Immersive Role-Playing)——
一种面向通用千里浸式脚色献艺的自恰当多智能体交互框架。

该框架通过四通说念音讯阵势和场景科罚器,让AI不仅会「说」,还会「想」、会「动」、会「感知环境」,并在复杂叙事中纯清晰换场景、动态引入新脚色。
咫尺该责任已被ACL 2026接纳。
从跟AI聊天到和脚色共处大语言模子在脚色献艺任务上的应用正快速扶植:
用户不错设定率性脚色(历史东说念主物、演义脚色、原创东说念主设),与AI进行不息的叙事互动。
梦想景色下,AI应当大要代入这个脚色,在情境中保持东说念主设一致、对环境明锐、对他东说念主话语作念出贴合关系的恢复。
但履行中,大大量系统更像是会话语的聊天机器东说念主:对话虽畅通,却艰涩情境感和叙事张力。
以探案为例,故事不时在一个固定场景、固定东说念主物之间反复进行,无法四处搜证、无法与不同证东说念主轮替对质、无法让环境陈迹真确参与推理,艰涩真确的剧情股东和宇宙变化。
现存方法缺了环境信号,也缺了“组织者”商讨团队指出,面前脚色献艺系统主要存在两类局限。
一、千里浸感不及:环境被当成「布景板」不少责任只建模脚色的台词(Speech);其后有商讨加入了动作(Action)或内心独白(Thought),但在叙事中,环境并非无关紧要的遮拦。
它会塑造氛围、推动因果,勾搭脚色的行动、宇宙的变化与后续对话。
举例:案发现局面毯上的蜡痕、煤气灯照出的暗影角度、证东说念主住所门口未干的泥渍……
这些环境信号既能缓助推理(蜡痕指向婚典烛炬,泥渍示意来客地点),也能成为剧情更动的机会(换一个场景,就换一批证东说念主和陈迹)。
若系统不把环境四肢与台词、动作同等蹙迫的信号来建模,脚色就容易像是在一个空屋间里自言自语,探案也就失去了「搜证」的实感。
二、互动结构过于静态:缺一个「会养息的导演」大量系统假设:场景不变、东说念主物不变、用户与某个固定脚色一问一答。
但探案正好需要四处搜证:从案发现场到苏格兰场,从房主内助的公寓到嫌疑东说念主的宅邸,每个场景皆有不同的环境和证东说念主。
谁来接下一句?是先问管家依然先问马车夫?何时换场景、何时引入新证东说念主?
现存框架很少系统性地回答这些问题。
莫得这些智商,故事就很难当然地「演下去」,更像是在一个紧闭的聊天室里重叠对话,而非一场真确的访问。
AdaMARP:四通说念音讯阵势+场景科罚器AdaMARP从两个地点恢复上述问题。
千里浸式音讯阵势: Thought–Action–Environment–SpeechAdaMARP 为每一轮交互界说了一种四通说念交汇的音讯阵势:
这么,一个完满的恢复不错同期包含念念考、动作、环境感知和言语,且规章可纯真交汇。
举例,福尔摩斯在讯问证东说念主时:<煤气灯摇曳,证东说念主下阐明地瞥向壁炉上的时钟> [他在侧目具体时辰,那段时辰他不在场](用烟斗轻轻敲了敲桌面)案发当晚八点到九点,您究竟在那里?
环境陈迹 → 内心推理 → 施压动作 → 追问话语,四者造成一条明显的因果链,更逼近着实探案的节律。
同期,环境不再只是点缀。
案发现场的物证摆放会缓助脚色的推理链条;证东说念主住所的叮嘱(凌乱的书桌、未拆的信件)不错示意秉性与萍踪;场景切换则当然引入新的证东说念主与陈迹。
环境既参与氛围营造,也参与推理与叙事的因果。
自恰当框架:三智能体+场景科罚器的五种动作AdaMARP将脚色献艺建模为三个智能体的合营:
Actor模子:献艺通盘非用户脚色;User模子:代表用户方(可由 LLM 模拟或真东说念主替代);场景科罚器(Scene Manager):认真高层养息与界限。场景科罚器通过一组闹翻动作来驱动整场「上演」:
init_scene:开动化场景(如:贝克街 221B,或某起凶案现场);pick_speaker:聘任下一句由谁来说——是福尔摩斯追问、华生补充,依然证东说念主阐发?并给出根由;switch_scene:切换场景(从案发现场到证东说念主公寓,从苏格兰场到嫌疑东说念主宅邸);add_role:在叙事中动态引入新脚色(新发现的证东说念主、转眼登门的访客,含东说念主设与动机);end:松手本场互动。每一步方案皆会输出对应的根由,使养息流程可阐扬、可拘谨。这么,系统既能决定「谁来接话」,也能决定「何时换场景搜证」「何时引入新证东说念主」,从而援救更复杂、更绽开的多脚色探案叙事。
上述蓄意在实践中若何运转?不妨看一段福尔摩斯探案叙事的拆解。
各设施均由场景科罚器养息,需要提防的是本案例只是用于阐明,不详了部分细节举例防范的脚色档案、脚色动机场景科罚器的原始输出等
完满示例:探案叙事中的AdaMARP脚色:福尔摩斯、华生。
开动场景:伦敦东区某寓所三层,案发后的夜深。沉稳的窗帘半掩,煤气灯在风中摇曳,在墙面上投下漂泊的影子。壁炉已熄,余烬旁的地毯上有一小块凝固的蜡痕,不远方洒落着几根烧尽的洋火。福尔摩斯与华生立于现场中央,窗外婉曲传来泰晤士河上的汽笛声。
场景科罚器
聘任的动作为:pick_speaker(speaker: 福尔摩斯)根由:窥伺应先勘测现场并给出初步推理福尔摩斯:<煤气灯昏黄,蜡痕在暗影中婉曲可见> [烛泪的位置和景色……婚典烛炬,并且是左手持烛](蹲下身捻起碎片嗅了嗅,站起身)华生,去查查最近三个月内举办过婚典、且家中有东说念主左撇子的家庭。
场景科罚器
聘任的动作为:pick_speaker(speaker: 华生)根由:福尔摩斯已下达辅导,助手应领命施行华生:(点点头)理会(排闼而出)<走廊里传来渐远的脚步声,随后是马车驶离的声响>
场景科罚器
聘任的动作为:switch_scene根由:华生已前去访问,需切换至下一个搜证地点——案发地邻居的住所新场景:白教堂隔邻一栋旧式公寓,房主内助的住处。细小的木楼梯吱呀作响,扶手蒙着一层浓重。二楼的走廊晦暗,炖菜的气息从绝顶的厨房飘来。门厅忐忑,壁炉上摆着一只低价的瓷钟,墙角堆着未拆的信件。场景科罚器
聘任的动作为:add_role(new_role: 房主内助,案发现场的邻居,这栋公寓的房主)根由:作为案发地邻居,可能掌抓要道证词,需引入讯问场景科罚器
聘任的动作为:pick_speaker(speaker: 福尔摩斯)根由:讯问应由窥伺主导开场福尔摩斯:(摘下弁冕,微微颔首)夫东说念主,案发当晚八点到九点,您是否听见三楼有任何异常声响?
场景科罚器
聘任的动作为:pick_speaker(speaker: 房主内助)根由:需听取证东说念主对时辰线的阐发。房主内助:<下阐明地瞥向壁炉上的时钟>
场景科罚器
聘任的动作为:pick_speaker(speaker: 福尔摩斯)根由:证东说念主出现侧目迹象,应连续追问施压福尔摩斯:[她在侧目具体时辰](用烟斗轻轻敲了敲桌面)那段时辰,您究竟在那里?
场景科罚器
聘任的动作为:pick_speaker(speaker: 房主内助)根由:给证东说念主回答的机会房主内助:(咬了咬嘴唇,正要启齿——)
场景科罚器
聘任的动作为:add_role(new_role: 雷斯垂德探长)根由:新证东说念干陈迹出现,探长需讲述访问阐扬场景科罚器
聘任的动作为:pick_speaker(speaker: 雷斯垂德)根由:探长带来新陈迹,应由其先行阐明。雷斯垂德:福尔摩斯先生,咱们发现了新的证东说念主,马车夫说他当晚载过别称黑衣须眉……
……开动场景、发言养息、场景切换、脚色引入均由场景科罚器驱动,且每步均以「聘任的动作为:Action_name | 根由:Reason」的景色可阐扬。
这种结构化、多通说念、多场景、多脚色的连贯叙事,恰正是AdaMARP旨在缓助的探案节律。
磨练数据:从文体索求+从主题合成
为磨练上述智商,商讨团队构建了两个数据集,分别面向Actor模子和场景科罚器。
AdaRPSet:让脚色「会演」AdaRPSet面向Actor模子,由两个互补子集组成:
AdaRPSet-Extracted(文体索求)从Goodreads「最好书本」榜单选取81本代表性文体作品,经三阶段管说念构建:
(1) 分块:按章节切分并合并为合适长度的文本块;
(2) LLM索求:识别连贯场景与多脚色互动轨迹,将对话径直振荡为长入的Thought–Action–Environment–Speech 阵势,严格辞别脚色动作与环境信号;
(3) 脚色画像生成:按脚色团聚全书笔据,合成七维画像(身份与外貌、秉性与情绪、话语格调、智商兴致、社会布景、个东说念主资格、东说念主际关系)。
每条轨迹采纳多视角增强:吞并场景下,依次指定不同脚色为主角,其余为NPC,从而推广磨练样本。
索求数据自然具有文体质感与东说念主味,恰当学习阵势步调与基础演绎智商。
AdaRPSet-Synthesis(主题合成)文体索求的轨迹多为单场景、脚色固定的互动,对场景切换与动态引入新脚色的袒护不及。
商讨团队因此构建合成数据:在20类主题(冒险、探索、探案、解谜、密谋、解救、隐迹、构兵、豪恣、友谊、竞争、反水、息争、探究、计谋、魔法、季世等)下,由LLM生成情节级轨迹。
每条轨迹明确包含:开动情境、主控脚色与多个辅助脚色、多轮对话(长入阵势),以及场景科罚器的界限音讯(如 switch_scene、add_role)。
每条轨迹至少包含一次场景切换和一次脚色引入,用以强化模子对动态叙事的恰当智商。
合成数据与索求数据在磨练时合并,使Actor模子既能学阵势与东说念主味,又能学动态养息下的演绎。
对于两个互补子集对应的细节信息如下表所示。
其中Plots指的是开动情节片断(包含开动场景和开动脚色)的数目,Roles指的是不重叠的脚色数目,Convs指的是指的是完满的脚色献艺记载(开动情节片断和养殖的不同对话轨迹)的数目,Utterances指的是通盘脚色献艺记载中对话的数目,Avg. Turns 指的是每个脚色献艺记载的平均对话数目。
AdaSMSet:让系统「会导」
AdaSMSet面向场景科罚器,在AdaRPSet-Synthesis的基础上构建。
合成轨迹已包含init_scene、switch_scene、add_role、end等界限动作,但艰涩最中枢的发言者聘任监督。
商讨团队在每两段脚色发言之间插入 pick_speaker 动作,由强辅导罢免模子为每次聘任生成当然语言根由(reason),并拘谨根由需具体、高下文相关,幸免套路化表述。
AdaSMSet因而袒护场景科罚器的一齐五类动作,为「何时换场景」「何时加东说念主」「谁来接下一句」及对应根由提供端到端监督。
由于AdaSMSet源于AdaRPSet-Synthesis,因此对应的Plots、Roles和Convs的统计信息与其一致,由于添加了pick_speaker记载,因此最终的Utterances数目为496493,Avg.Turns为50.15。
两者的互补AdaRPSet与AdaSMSet共同缓助AdaMARP:前者让脚色「会演」(保持东说念主设、反映环境、股东剧情),后者让系统「会导」(合理切换场景、引入脚色、安排发言规章)。
二者分享长入的脚色画像与音讯阵势,确保Actor与场景科罚器在吞并叙事框架下协同责任。
AdaptiveBench:为什么还要自建评测?
有了磨练数据和框架,还需要回答一个要道问题:
何如评估「千里浸式、可恰当」的脚色献艺是否果然作念得好?
现存好多评测更偏向「一句话好不好」或「单轮对话像不像这个东说念主设」,难以袒护AdaMARP所豪情的几点:
整段故事,而不是单句回复:着实体验来自整条对话轨迹是否连贯、有张力,而非某一句是否优雅。环境与动作是否被真确用起来:环境陈迹有莫得参与推理和叙事,动作是否和内心、台词呼应。多脚色与场景切换是否当然:场景科罚器有莫得「带好这场戏」,包括什么时候换场景、什么时候加新脚色、谁来接下一句。为此,商讨团队提议了AdaptiveBench:一个面向自恰当脚色献艺的仿真评测框架。
它从AdaRPSet-Synthesis的保留子相聚选取剧情种子(20个话题,每个话题5个开动Plots,所有100个评估样本),在每个种子上同期运行三方脚色:
用户模子(不错是真东说念主或LLM Agent)作为「演员」的Actor模子认真养息的场景科罚器在每个种子上,场景科罚器一语气发出多少轮pick_speaker、switch_scene、add_role动作,驱动Actor与用户侧完成一整段多轮对话。完满轨迹生成后,再由评估模子从轨迹级别给出多维评分。
具体而言,AdaptiveBench主要从轨迹级别(Trajectory-level)评估模子,评分包含以下维度:
一、针对Actor模子的五大维度:脚色一致性(Character Consistency):脚色内心、动作、台词是否自洽?话语格调、身份布景、中枢动机是否在整场戏中保持一致?环境基础(Environmental Grounding):脚色是否对环境有感知(如记取地毯上的蜡痕),并诈欺环境陈迹作念出行动,而不是将环境当成死物?东说念主际互动(Interpersonal Interaction):能否听懂他东说念主的话外音,并根据东说念主物关系(如窥伺对质东说念主、窥伺对助手)作念出贴切的互动反映?叙事股东(Narrative Progression):每一次发言是否提供了新信息、新动作或表情发展,推动故事上前走,而不是原地打转?辅导罢免(Instruction Compliance):是否严格遵照了四通说念阵势条件,不越俎代庖替其他脚色或系统话语?二、针对场景科罚器(Scene Manager)的四大维度:场景阐明(Scene Understanding):能否正确追踪面前场景的阐扬,判断何时该切换到下一个场景(比如搜证松手,转往证东说念主公寓)?发言顺次(Speaker Discipline):能否合理安排轮次?是否让通盘东说念主在妥贴的时机话语,不有数用户,也不让NPC一语气霸麦?脚色引入判断(Role Introduction Judgment):何时需要引入新脚色?引入的时机和根由是否能推动剧情?全体评价(Overall Assessment):这三个维度的配合是否畅通,整场「戏」的导演节律感好不好?通过 AdaptiveBench,AdaMARP 不单是「有一个悦见地框架蓄意」,而是不错在长入的仿真环境下,对不同模子、不同磨练阵势的优劣进行可重叠、可量化的比拟。
从叙事逻辑与情境交互智商来看,AdaMARP大要产出更连贯的内心—行动—言语链,更好地诈欺环境推动叙事(举例探案中的物证与场景陈迹),并在多脚色、多场景的复杂情境中已毕纯真养息(举例切换场景搜证、与不同证东说念主轮替对质)。
这为非论是探案推理、冒险叙事依然其他需要情境与养息的互动的更千里浸式的AI脚色献艺提供了一个新的本事旅途。
名目主页:https://xuzhenhua55.github.io/AdaMARP/#overview开云体育
