自回归解码已成为大语言模型的推论标准。大型语言模型在每次正向计算时都需要访问其所有参数,但只能获得一个令牌,这使其昂贵且生成缓慢。
最近,Eagle Team的新工作“ Eagle -3:大型通过 - 时间测试”通过一系列优化来解锁投机性采样的能力,这可以将大语言模型的推理速度提高6.5倍,而不会改变大语模型的输出分布以确保无损失。同时,随着训练数据的增加,加速度比率可以进一步提高。
在数学推断数据集GSM8K上测试了Eagle-3(-r1-llama 8b的加速效应(-r1-llama 8b),以及其他模型在多轮对话数据集MT基础上进行了测试):
比较不同方法的发电速度:
背景
投机采样使用小型模型快速生成草稿,同时生成多个令牌。目标大语言模型通过一个正向计算并行验证草稿的正确性,输出正确的草稿,并确保无损。 Eagle系列是推测采样的最快实现。
EAGLE-1在更常规的特征水平而不是令牌水平上执行自动降低,同时输入采样结果(超过一个时间步的令牌)消除了不确定性,从而显着提高了模型草案的准确性。 EAGLE-2使用草稿模型的置信度近似接受率来动态调整草稿的结构,从而进一步提高了投机采样的效率。
机器的心脏以前已经报道了Eagle-1和Eagle-2的工作:
最新的大型模型是使用越来越多的培训数据来实现更好的性能。例如,对于Llama系列7b(8b)尺寸模型,Llama 1,Llama 2和Llama 3分别使用1T,2T和15T令牌训练数据。模型结构和推理成本已得到显着提高。
EAGLE-3的作者希望通过增加模型草案中的训练数据量来增加接受和加速度(蓝色曲线)。不幸的是,EAGLE-1从训练数据的增加获得的改进非常有限(红色曲线)。
随着训练数据的增加,EAGLE-1和EAGLE-3的加速度变化的趋势发生率:
动机
Eagle在特征层进行自动重新测试,然后使用目标模型的分类标头来获得草稿令牌。该方法利用了目标模型的中间结果和信息,并且比令牌层自动估计具有更好的性能。由于模型草案的最终任务是预测令牌,因此Eagle的损失函数包括两个部分,一个是特征预测损失,另一个是令牌预测损失。特征预测损失也可以被认为是限制模型表达能力的约束。
EAGLE-3的作者进行了实验验证,并观察到了初始令牌0-α的接受率。当数据集很小时,当功能预测损失较小时,可以提高培训数据的性能,但严重损害了模型草案的提高功能。
但是,未能使用特征预测损失将在产生随后的令牌时会导致训练分布的输入偏差,从而导致第二稿标记的1-α的接受率严重降低。为了解决此问题,EAGLE-3使用“火车测试”来模拟多步生成,从而考虑了模型的UP功能以及生成多种草稿令牌的能力
Eagle等。投机采样方法都重用目标模型的最后一层作为草稿模型的提示,但是Eagle-3的作者发现这是有缺陷的。大型语言模型的最后一层可以线性转换,以获得下一代价的分布。对于全级分类标头,最后一层的特征将一一对应于次要令牌的分布。最后一层的功能仅具有下一代价的信息,该信息失去了目标模型的全局性质。
因此,EAGLE-3不再将目标模型的特征的最后一层用作辅助信息,而是将目标模型的低级,中级和高级信息混合在一起,作为草案模型的输入。
方法
与其他投机抽样方法一致,EAGLE-3在草稿阶段和验证阶段交替。
下图在草稿阶段被用作示例。 In the pre- or stage, EAGLE-3 the low, and high-level of the model, as l, m and h, and the k- l, m and h to the 3k- , and then the to k- a fully layer, and the g that fuses at , where k is the layer of the目标模型。目的是生成带有“如何我”的草稿令牌序列,并且只输入G_WOW和G_CAN,并且草稿模型无法感知随机采样过程。
因此,eagle-3引入了采样结果的e_i词嵌入e_i I.在上一个时间步骤中使用相应的嵌入e剪接g,即 and e_can,以及g_can和e_i。通过完全连接的层将剪接的向量还原为k维,并将其输入单层以获得a。然后,将A输入分类标题和样本以获取初稿“ DO”。
在步骤1中,当带有“如何”前缀时,EAGLE-3重新使用和G_CAN的g_can。
在步骤2中,前缀是“我怎么”。理想的方法是重复使用目标模型的G_WOW,G_CAN和G_I。但这是不可能的,因为对于目标模型尚未检查令牌“ i”,也无法获得G_I。 EAGLE-3用上一步骤草稿模型的输出A_I替换了G_I,并嵌入了A_I的,并将采样结果“ DO”作为草案模型STEP2的输入。
在步骤3中,G_DO也不可用,因此请改用A_DO,将A_DO拼接和E_IT作为草案模型的输入。随后的步骤也是如此。
实验
EAGLE-3使用MT板凳,GSM8K,CNN/DM数据集对五个任务进行实验,包括多轮对话,代码,数学推理,指令遵守和摘要,并将它们与7种先进的投机性抽样方法进行了比较(SPS,PLD,Hydra,Hydra,Hydra,Eagle,Eagle,Eagle,Eagle-2)。
实验分别在(V),Llama-3.1(L31),Llama-3.3(L33),-r1-llama(dsl)上进行。
表中的加速度比为,τ是平均接受度长度,这是目标模型每个正向计算可以生成的令牌数量。 EAGLE-3每个正向计算可产生约4-7个令牌,而自回归解码每次产生1个令牌。因此,Eagle-3显着加速了大语言模型的产生,加速度为3.1x-6.5x
在所有任务和模型上,EAGLE-3的加速度比和平均接受度长度最高,明显好于其他方法。
应用
Eagle-3在发布的第一天集成。在生产级框架中,Eagle-3还具有多种加速效应。团队提供了以下实验,并以Llama 3.1 8b(批次尺寸= 1,1x H100)为例。
人们通常认为投机抽样会减少批量大小的吞吐量。但是,在此生产级别的框架下,当批处理大小为64时,Eagle-3仍然可以将吞吐量提高38%,而Eagle会导致吞吐量在批处理大小为24时减小。在此,1.00X以(w/o)为基准的吞吐量。团队提供了以下实验,并以Llama 3.1 8b(1x H100)为例。
作者的介绍
Li :北京大学情报学院的硕士,滑铁卢大学的来访学者,在教师Zhang 和Zhang Chao的指导下,研究方向是加速和调整大型模型。
Wei :微软亚洲研究所的研究人员,其研究方向是体现的智能,图像产生和AI。
Zhang Chao:北京大学情报学院的研究人员,他的研究方向是计算机视觉和大型模型加速。
Zhang :计算机科学学院和滑铁卢大学媒介研究所的助理教授,其中包括大型推理加速,AI安全和世界模型,包括大型模型推理。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论