大语言模型(LLM)已经崛起,成为处理复杂任务的重要手段。尽管大多数现有技术往往遵循“思考-行动-观察”(TAO)的流程,但这些技术却受到LLM本身知识局限性的制约。而检索增强生成(RAG)技术则巧妙地运用外部数据库资源,将LLM的生成能力与检索到的信息有效融合。而将 RAG 应用于实际任务规划仍然面临着两个方面的挑战:
指令图的拓展性,体现在其能够通过遍历现有的指令集,并将这些指令重新组合成新的指令序列,从而助力大型语言模型(LLM)执行那些尚未预设路径的任务。
可迁移性意味着研发出能迅速适应新任务的技术,这样模型就能从少量的例子中高效地吸收知识。
面对大模型任务规划中在可扩展性和可迁移性方面的难题,华为2012中央软件院新加坡团队的王政博士领导提出了解决策略。该方案依托于多智能体协同的元强化学习架构,成功实现了以下两点:一是基于强化学习的指令图拓扑进行了扩展;二是通过元学习技术,实现了对少样本任务的有效迁移。在涉及跨学科复杂任务的测评中,比如多级推理、实体决策、网络购物以及科学问题解答等方面,相较于目前公认的最先进技术,实现了19.2%的效能飞跃;即便在遭遇50%的噪声干扰时,其性能也仅有所下降11.1%,这充分证明了其在复杂环境中的强大适应性。
框架主要包含三个主要组件:
1. Graph:用于组织过去指令路径的图;
2. RL-Agent:一种运用强化学习技术来扩大图覆盖范围的智能体。
ML-Agent:这是一种智能体,它通过元学习技术来增强其在不同任务上的泛化能力。
核心思路
指令图( Graph)
图 G (V, E) 对过往的指令序列进行了整理,形成了正确的动作序列。图中的节点(V)代表了指令集 I,并对其中的相似指令进行了分组。而边 (E) 则记录了路径中包含的任务及其相关问题。此图是通过不断迭代,将过去成功路径中的指令插入其中来构建的。在构建过程中,采用了近似最近邻(AKNN)搜索方法,并通过设定阈值来判断是否需要创建新的节点或将其添加到现有的节点中。指令的组合能够创造出解决以前未曾见过的问题的新途径。
强化学习智能体(RL-Agent)
在指令图中挑选节点这一步骤,可以被视为一种马尔可夫决策过程,作者采用了强化学习技术来训练智能体,该智能体能够遍历指令图,并识别出完成特定任务的潜在指令路径,从而有效地挖掘了指令图在扩展性方面的潜力。
状态描述:计算输入问题与各类图形元素间的余弦相似度值。
2. 行动():将当前节点包含在路径中或排除它。
3. 奖励():端到端性能指标(例如 F1 Score)。
该智能体在策略学习方面,运用策略梯度算法进行优化,同时借助历史数据的热启动功能来提升训练效率。此方法能够通过确定最佳的指令路径,从而有效增强检索效果。
元学习智能体(ML-Agent)
ML-Agent 通过元学习技术进行训练,旨在提升其迁移能力。该智能体能够从RL-Agent提供的多个候选路径中挑选出最为相关的路径,进而为LLM生成相应的提示。其模型结构主要包括:一、采用共享的自注意力层设计的问题编码器和路径编码器;二、从激活函数中提取出的特征表示。
ML-Agent 的训练包含着两个阶段:
对预训练过程进行优化,旨在提升问题路径对齐(QPA)与问题路径匹配(QPM)两项任务的执行效果。
2. 微调:端到端优化规划的性能。
此方法使得模型得以通过仅依赖少数几个案例便实现对新任务的拓展,进而提升了检索增强的多智能体协同工作的效能。
整体框架
在训练期间,我们采用源自可见训练任务的集合以及查询集合,对RL-Agent与ML-Agent进行协作式的迭代训练。
在少量样本学习阶段,通过利用支持集中的一小部分样本实例,智能体的参数能够迅速调整以应对未曾遭遇过的任务。
在测试环节,通过在未知任务上的查询集进行测试,以衡量模型适应能力的强弱。
该框架借助RL-Agent提升了其扩展能力,同时依托ML-Agent增强了其迁移能力。
实验结果
本文的实验在四个广泛使用的数据集上进行:
采用了GLM-4、GPT-4o mini以及-V2这三种大型语言模型,它们涵盖了ReAct、WKM以及RAP等多个技术。
评估的指标包括F1 Score、Rate以及两个不同的Score。
1. 对未见过任务的表现:
在三个大型语言模型上,该指标显著超越了所有其他模型,与最顶尖的RAP模型相比,它在三个不同维度上分别实现了19.2%、9.3%和6.1%的提升。
2. 跨数据集泛化:
经过在数据集的新任务中运用经过训练的模型,其展现出了卓越的泛化性能。
3. 对已见过任务的表现:
实验结果表明 在可见的训练任务上的表现优于 RAP。
4. 抗噪声能力:
即便噪声比高达50%,其性能仅小幅下滑至11.1%,相较之下,RAP的性能却大幅下跌至27.2%。由此可见,其展现出卓越的抗噪性能。
5. 在 上验证可扩展性和可迁移性的消融实验:
若缺失任何一部件,F1 score 将会受到影响而降低,这一点充分说明每个部件的加入都对整体性能产生了显著的正向影响。
6. 少样本学习的影响:
如图(a)至(b)部分所示,任务占比由0.2提升至1.0,随着任务数量的递增,其有效性得以持续稳定,这充分说明了不同任务间具备较高的迁移能力。同时,鉴于加入了额外的训练资料,执行时间随着任务量的上升而相应增长。另外,针对每一个具体任务,样本占比同样从0.2调整至1.0。如图(c)和(d)所示,效果得到了提升,并且在大约80%的样本占比时趋于稳定;与此同时,随着用于训练的样本量不断增多,执行时间也在相应地延长。
总结
综上所述,本研究提出了一套系统化的策略,通过RAG技术实现任务规划,有效解决了可扩展性与可迁移性的难题。该策略融合了指令图、RL-Agent以及ML-Agent,显著提升了端到端任务规划的性能。通过在四个数据集上进行的广泛实验,证实了该策略的优越性,与现有方法相比,性能提升了高达19.2%。该框架具有出色的抗干扰能力,且能在有限的样本支持下迅速对新任务作出调整。后续的研究工作将致力于提升其广泛的适用性。
团队介绍
华为新加坡中央软件院团队独立承担了这项任务,他们致力于深入研发AI基础软件,专注于大模型基础软件的技术创新,涵盖RAG、AI Agent、多模态等前沿技术的研究与能力培养,旨在打造依托强大算力和大模型的应用技术,进而促进AI基础软件的进步。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论