真正的人类被“扔”进了AI世界。这是什么神奇的操作?
更可怕的是,基于真人制作的智能代理居然能以85%的准确度还原他们的行为。
换句话说,人类如何在现实世界中回答问题,对于虚拟世界中的代理也是如此。人类几乎拥有与自己一模一样的虚拟复制品!
去年,斯坦福推出了25个智慧小镇,将西部世界变成了现实。
经过一年多的时间,原团队将1000多个AI代理放入虚拟小镇中,模拟真实人类的所有态度和行为。
论文地址:
与以往不同的是,这次他们采用了一种新颖的研究方法——访谈来创造生成智能。
通过招募1052名参与者,涵盖不同性别、年龄、地区等,每人接受GPT-4o访谈2小时。
然后将获得的采访内容作为文本提示输入到语言模型中,重现每个个体对应的AI代理。
综合社会调查中所有代理人的答案与两周后原始参与者自我复制的答案的准确率接近85%,并且他们在性格预测和实验复制方面的表现与人类相当。
毫无疑问,我们已经非常接近能够模仿人类的人工智能体了。
有网友表示,这就是克隆人的智慧。
还有人惊呼机器可以提前预测你的预测,这一天居然真的来了!
AI在模拟人类行为方面85%的准确率无疑是一个巨大的成就。这一突破直接为人工智能处理高度复杂的交互(例如个性化医疗建议)铺平了道路。
拒绝刻板印象,让AI反映真实的人类
为什么要进行这样的研究?
团队成员之一的朴俊成表示,这是为了“让故事更加完整”。
去年的《西部世界小镇》中,团队希望用生成代理来指出这样一个未来——
在无法直接参与或观察的情况下(例如卫生政策、产品发布、外部影响等),人类可以使用人工智能来模拟生活,以更好地了解自己。
然而研究人员深感这个故事并不完整,并没有还原真实的人类世界。
为了使这些模拟可信,他们认为应该避免将这些“人工智能人类”变量简化为人口统计学刻板印象,并且其准确性不应仅通过平均治疗效果的成功或失败来评估。来测量。
该怎么办?该团队在各个模型中找到了答案。
他们创建了反映真实个体的生成代理,并通过测量它们重现个体对一般社会调查、大五人格测试、经济游戏和随机对照试验的反应的能力来测试这些模型的有效性。 。
令人惊讶的是,该经纪人的表现非常出色。
他们以 85% 的准确度重现了综合社会调查中受试者的回答,相当于受试者两周后重现自己答案的准确度,并且同样擅长预测人格特征和实验结果。
与仅基于人口统计描述的代理相比,这种基于访谈的代理减少了种族和意识形态群体之间的准确性偏差。
研究人员认为,这是因为后者更能反映真实个体的各种独特因素。
总的来说,这项研究为模拟个体开辟了新的可能性。模拟的基础是对构成我们社会的个体进行准确建模。
这项工作也标志着生成式人工智能可以代表真实人类的时代的开始!
作者现已将本工作使用的开源存储库和包上传到,包括他自己的代理
创建 1000 多个人形生成代理
如果想要创建一个能够反映影响个人态度、信仰、行为等各种因素的智能代理,就需要对真实个体有深入的了解。
为此,研究团队决定采用一种基本的社会科学方法——“深度访谈”法,将预设问题与基于受访者回答的适应性相结合。
通过分层抽样招募的1000多名参与者是具有代表性的样本。不同的个体涵盖不同的年龄、宗教、性别、教育水平和政治意识形态。
当然,这么多人的采访必须交给AI。
为此,研究人员开发了一款AI采访员,对每位参与者完成了2小时的语音采访,并生成了平均长度为6491字的录音。
这里的采访计划借鉴了《》对社会科学家的采访的部分内容,涵盖了从参与者的生活故事到他们对当前社会问题的看法等广泛的话题。
例如,告诉我你经历过的任何生活故事,从童年、教育、到家庭和人际关系;您如何看待种族主义和治安?
根据面试结构和时间限制,AI面试官根据每个人的回答动态生成后续问题。
研究平台和交互界面
为了创建一个“生成代理”,作者开发了一种新颖的代理架构,将参与者的完整采访记录与大型模型结合起来。
其中,整个记录将被“注入”到模型提示中,指示模型根据访谈数据模仿参与者的行为。
在需要多步骤决策的实验中,智能体通过简短的文本描述获得先前刺激及其相应响应的记忆。
生成代理可以响应任何文本刺激,包括强制选择提示、问卷和多阶段交互场景。
为了评估这些模拟人类的代理的前景,研究小组评估了四个组成部分:
他们使用前三个组成部分来评估生成剂在预测个人态度、特征和行为方面的准确性,而复制研究则评估其预测群体水平、治疗效果和效果大小的能力。
由于调查和行为研究中的个体反应往往会随着时间的推移而表现出不一致,因此作者还将参与者自身态度和行为的一致性作为正常化因素:模拟个体态度或行为的准确性取决于这些态度的一致性以及随着时间的推移的行为。
为了解释这种自我一致性水平的差异,他们要求每个参与者在两周内完成两次测试。
主要因变量是归一化准确度( ),计算公式为:智能体对个体答案的预测准确度/个体自身答案的重现准确度。
标准化准确度用 1.0 表示,生成代理预测个人答案的准确度与个人两周后重现自己答案的准确度相同。
对于连续结果,作者计算了标准化相关性。
预测个人态度和行为一般社会调查
评估的第一部分是GSS,它评估受访者对广泛主题的人口背景、行为、态度和信仰,包括公共政策、种族关系、性别和宗教。
对于 GSS,生成代理以 0.85 的平均归一化准确度预测参与者的反应。
显然,这些基于访谈的代理的表现优于基于人口统计和角色的代理,标准化分数高出 14-15%。
基于人口统计的生成智能体的标准化准确度为 0.71,而基于角色的智能体则达到 0.70。
大五人格测试
评估的第二部分使用 BFI-44 预测参与者的“大五人格特征”,该测试评估五个人格维度:开放性、尽责性、外向性、宜人性和神经质。
每个维度均根据 8-10 个李克特量表问题的综合分数计算得出。
对于大五人格测试,生成代理实现了 0.80 的归一化相关性。
与 GSS 结果类似,基于访谈的生成智能体优于基于人口统计(标准化相关性 = 0.55)和基于角色(标准化相关性 = 0.75)的智能体。
在预测大五人格特征时,基于访谈的代理还产生了较低的平均绝对误差(MAE)。事后配对 Tukey 测试证实,基于访谈的智能体明显优于其他两组。
经济博弈
评估的第三部分包含五个著名的经济游戏,旨在引出参与者在具有实际利害关系的决策情况下的行为。
这些博弈包括:独裁者博弈、第一玩家和第二玩家之间的信任博弈、公共物品博弈和囚徒困境。
为了确保参与者的真正承诺,该研究提供了金钱奖励。
研究人员将每个游戏的输出值标准化为 0-1 的范围,并将生成代理的预测值与参与者的实际值进行比较。
由于这些是连续测量,他们计算了相关系数和归一化相关性。
平均而言,生成代理实现了 0.66 的归一化相关性。
然而,在经济博弈中,代理人之间的平均绝对误差(MAE)没有显着差异。
基础比较研究
在一项探索性分析中,作者通过将基于访谈的生成仁慈智能体与基线复合智能体进行比较,测试了访谈的有效性和效率。
该基线综合代理是根据参与者的 GSS、大五人格和经济博弈反应数据构建的。
这里随机抽取了 100 名参与者,排除类似问题的问答对,并建立复合智能体作为参考。
结果表明,复合智能体的GSS归一化准确率为0.76,其大五人格归一化相关性和经济博弈归一化相关性分别为0.64和0.31。
在消融实验中,即使删除80%的采访内容,基于采访构建的智能体仍然优于复合智能体。其中,GSS归一化精度为0.79。
此外,通过GPT-4将访谈笔录转换为要点摘要时也得到了同样的结果(仅保留事实内容,去除了原有的语言特征)。
实验再现结果表明AI与人类高度一致
实验评估的第四部分是让生成代理参与五个社会科学实验,并测试它们是否能够预测社会科学家常用的实验设置中的治疗效果。
这些实验取自大规模复制工作中已发表的研究,包括对感知意图如何影响责任归属以及公平如何影响情绪反应的研究。
在最新的研究中,人类参与者和生成代理都完成了全部五项研究,并使用与原始研究相同的统计方法计算 p 值和治疗效果大小。
如下表所示,5 项研究中有 4 项在人体中成功复制,1 项失败。生成代理还重现了相同的四项研究,但也未能重现第五项研究。
生成代理估计的效应大小与参与者的效应大小高度相关,而参与者内部一致性相关系数为 0.99,导致归一化相关系数为 0.99。
在生成代理人口统计平等差异(DPD)实验中,与根据人口统计信息或角色描述构建的代理相比,基于访谈的生成代理在所有任务中都表现出较低的 DPD。
这表明基于访谈的生成代理在减轻偏见方面更有效。
如何打造一名合格的AI面试官
为了确保代理所需的丰富训练数据是高质量且一致的,研究人员开发了以下 AI 面试代理。
我们之所以选择访谈而不是问卷调查,是希望访谈能够提供更全面、更详细的信息,让智能体能够在广泛的话题和领域实现对态度和行为的更高保真度的模拟。
此外,使用人工智能访谈代理代替人类访谈员还可以确保所有受试者之间一致的互动风格和质量。
AI面试官架构
一名合格的人工智能面试官需要知道何时提问以及如何提出有意义的问题。
在遵循访谈大纲的同时,还需要具有适应性和灵活性,以帮助受试者打开对话盒并分享他们可能没有想到的内容。
为了赋予AI面试官这种能力,研究人员专门设计了一种面试结构,让研究人员可以控制面试的整体内容和结构,同时让代理有一定的自由度来探索后续的内容是硬编码在采访脚本中的。问题。
代理将受试者的话语和访谈脚本作为输入,并以后续问题的形式生成下一步行动,或者决定使用语言模型继续下一个问题模块。反思模块帮助架构从正在进行的访谈中简洁地总结和推断见解,从而使代理能够更有效地生成后续问题
将语言模型用于下一个问题模块
访谈框架将访谈协议和受访者最近的回答作为输入并输出一个动作:1)继续大纲中的下一个问题;或 2) 根据对话提出后续问题。
面试大纲是一个有序的问题列表,每个问题都有预设的时间。在新问题块的开始,AI面试官逐字询问脚本中的问题。
受试者回答后,AI 面试官利用语言模型在问题块的时限内动态确定下一步的最佳选择。
例如,当询问受试者童年经历时,如果答案提到“我出生在新罕布什尔州……我非常喜欢那里的自然环境”,但没有具体提及最喜欢的地方,面试官可能会生成并询问后续问题。提示问题:“新罕布什尔州有没有最喜欢的小径或户外景点,或者小时候给您留下深刻印象的地方?”
另一方面,当被问及职业时,如果答案是“我是牙医”,面试官会判断该问题已得到充分回答,并继续下一个问题。
后续问题的推理和生成是通过提示语言模型完成的。然而,为了让面试官产生有效的行动,语言模型需要记住并推理之前的对话内容,以便根据共享信息提出有意义的后续问题。
问题来了:虽然现代语言模型的推理能力不断提高,但如果提示内容太长,仍然很难充分考虑所有信息。
不加区别地包含从面试到现在的所有内容可能会逐渐降低面试官提出问题的表现。
为了解决这个问题,研究人员在访谈中加入了一个反思模块,该模块可以动态地综合迄今为止的对话,并输出一个摘要说明,描述访谈者可以对参与者做出的推论。
例如,对于前面提到的参与者,该模块可能会生成如下反射内容:
然后,在提示语言模型生成访谈者动作时,研究者并没有使用完整的访谈笔录,而是使用了访谈者积累的简洁但描述性的反思笔记,以及最近的 5000 字访谈笔录。
让AI面试官“说话”
为了让受试者感觉他们正在与真人交谈并与采访者建立融洽的关系,团队使用了低延迟语音。
受试者发言后,AI面试官通常会在4秒内做出回应。
也就是说,仅仅4秒,AI就完成了推理、生成、返回语音应答的整个过程!因此,人类受试者也会感觉极其丝滑。
使用将语音音频转换为文本的模型来转录参与者的语音响应。
为了让受试者反思他们的答案,研究人员将在 GPT-4o 上使用以下提示:
为了让 GPT-4o 动态生成新问题,研究人员将使用以下提示:
果然,这样调试出来的AI面试官非常善解人意,能够继续与人类受试者顺利对话。
在听到受试者的童年经历后,他或她会说:“我很遗憾听到你的童年并不快乐。你能告诉我更多关于你在高中的经历吗?”
听完对象的高中经历后,他或她会深思熟虑地总结一下,然后继续问:“谢谢你和我分享这个。听起来高中对你来说是一个特别具有挑战性的时期,但你经历了很多高中毕业之后你选择了什么道路?是读大学还是直接进入职场?
让智能体模仿人类行为
那么,为什么特工们如此模仿他们的“人类原型”呢?
生成式人工智能可以模拟人类行为,因为语言模型可以提供支持,然后通过一组记忆来定义其行为。
这些记忆以文本形式存储在数据库(或“记忆流”)中,并在需要时检索以通过语言模型生成代理的行为。
同时,系统配备了反射模块,将这些记忆合成为反射内容,并从智能体记忆中的部分或全部文本中选择内容,促使语言模型得出有用的见解,从而增强智能体行为的可信度。
传统智能体通常依赖于在特定场景下手动设置的行为,而生成智能体则使用语言模型来生成类似人类的响应,这些响应反映了其记忆中描述的个性特征,并且适用于各种情况。情况,所以这种角色扮演会特别真实。
专家反思弥补单一链条思维弊端
与此同时,研究人员引入了一种“专家反思”,以便从访谈记录中明确得出有关参与者的高层次、更抽象的见解
这是因为直接从参与者的访谈记录中提示语言模型来预测他们在单一思想链中的反应可能会导致模型忽略受访者未明确表达的潜在信息。
在此模块中,研究人员提示模型生成对参与者数据的反映,但研究人员要求模型假设领域专家的身份,而不是简单地要求模型从访谈中得出见解。
具体来说,他们要求模型生成四组反思,每组反思均由社会科学四个子领域的不同专家进行:心理学家、行为经济学家、政治学家和人口统计学家。
每个代理的记忆包括访谈笔录的输出以及专家对该笔录的反思。这些反思是使用语言模型生成的简短综合,以推断参与者可能未明确陈述的见解。社会科学家专家(例如心理学家、行为经济学家)的作用将指导这些反思
例如,对于某个采访记录,不同的专家身份会产生不同的见解:
心理学家会认为,受试者非常看重自己的独立性,喜欢出差,不满母亲的过度控制,表现出对个人自由的强烈渴望。
在行为经济学家看来,他能够很好地将财务目标与休闲需求结合起来,追求平衡的生活。
据政治学家称,他自认是一名共和党人,并强烈支持该党的理想,但同时也是两党人士。
人口统计学家的回答是,他是一名库存专家,月薪3000美元至5000美元,家庭月收入7000美元。工作具有一定的稳定性和灵活性。
对于每个主题,研究人员提示 GPT-4 提供他们的访谈记录,并要求其为每位专家生成最多 20 个观察或反思,从而生成四组反思。
这些技巧是根据每位专家的角色定制的。以下是针对人口统计专家的提示示例:
想象一下,您是一位人口学专家(拥有博士学位),正在观察这次采访并做笔记。写下对受访者的人口特征和社会地位的观察/反思。 (您的观察结果应大于 5 且小于 20。考虑到上述访谈的深度,选择有意义的数字。)
这些反射生成后,将被保存在代理的内存中。
当需要预测受试者的答案时,研究人员会要求语言模型对问题进行分类,确定哪位专家最适合回答问题,然后检索专家产生的所有反射。
研究人员将把反思附加到参与者的访谈笔录上,并用它们作为输入 GPT-4 的提示,以生成预测的反应。
参考:
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论