Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式

进不了网站?换个网络试试!

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图

网友Chuby激动地说:“如果Meta的大概念模型真的有用,那么效率相同或更高的模型就会更小。比如1B模型将与70B Llama 4相媲美。这是一个巨大的进步!”

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图1

Meta首席科学家Yann LeCun在近期接受采访时表示,下一代AI系统LCM(大概念模型)。新系统将不再纯粹基于预测下一个代币,而是会像婴儿和小动物一样通过观察和互动来了解世界。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图2

金,博士华盛顿大学计算机科学与工程博士,强烈同意Meta的新论文,认为新模型增强了他对“永远不会回来”这一想法的信心,大型语言模型需要更像人类实施AGI。思考。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图3

甚至有人猜测Meta是本次AI大赛的黑马,他们会用模型带来惊喜。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图4

简而言之,“大概念模型”(LCM)在“句子表示空间”中对推理()进行建模,丢弃标记,直接操作高级显式语义表示信息,使推理完全摆脱语言和模态的约束。

具体来说,构建LCM只需要定长句子嵌入空间的编码器和解码器,处理流程非常简单:

输入首先被分割成句子,然后用编码器对每个句子进行编码以获得概念序列,即句子嵌入。

然后,大概念模型(LCM)对概念序列进行处理,并在输出端生成新的概念序列。

最后,解码器将生成的概念解码为 () 序列。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图5

论文链接:

代码链接:

文章中对()效率的分析颇为有趣:当token数量在1000左右时,新模型所需的计算资源理论上优于-7b,如下文中的token数量越大,新车型的优势就越大。具体结果如论文中的图15所示,其中蓝色代表-7b模型,红色和绿色分别代表新模型;红色的参数尺度为7b,绿色的参数尺度为1.6b;右图是左图中0-3000的代币下面数字的部分放大。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图6

新车型的其他亮点如下:

在抽象语言和模态独立级别上进行推理,超越标记:(1)新方法模拟底层推理过程,而不是对特定语言中的实例进行推理。 (2)LCM可以同时训练所有语言和模态,即获取相关知识,从而有望以公正的方式实现可扩展性。目前支持200种语言文本。

层次结构清晰:(1)提高长文本输出的可读性。 (2)方便用户进行本地交互编辑。

处理长上下文和长格式输出:原始模型的复杂度随着序列长度的增加呈二次方增加,而LCM需要处理至少短一个数量级的序列。

无与伦比的零样本泛化:LCM 可以用任何语言或模式进行预训练和微调。

模块化和可扩展性:(1)多模态LLM可能会受到模态竞争的影响,但与概念编码器和解码器不同,它们可以独立开发和优化,没有任何竞争或干扰。 (2)新的语言或模式可以很容易地添加到现有系统中。

为什么我们需要一个“概念”?

尽管大型语言模型取得了毫无疑问的成功和不断进步,但现有的法学硕士缺乏人类智能的一个重要特征:在多个抽象层次上的明确推理和规划。

人脑并不是在单词层面上运作的。

例如,在解决复杂任务或编写长文档时,人们通常遵循自上而下的过程:首先在较高级别规划整体结构,然后在较低抽象级别逐渐添加细节。

有人可能会说 LLM 隐式学习分层表示,但具有显式分层结构的模型更适合创建长格式输出。

新方法将与令牌级处理显着不同,并且更接近抽象空间中的(分层)推理。

语境是在LCM设计的抽象空间内表达的,但抽象空间独立于语言或模态。

即在纯语义层面上对基本推理过程进行建模,而不是在特定语言中对推理实例进行建模。

为了验证新方法,文章将抽象级别限制为两种:子词标记(token)和概念。

所谓“概念”被定义为整体不可分割的“抽象原子视图”。

实际上,一个概念通常对应于文本文档中的一个句子,或者相当于一个语音片段。

作者认为,与单​​词相比,句子是实现语言独立性的合适单位。

这与当前基于代币的法学硕士技术形成鲜明对比。

大型概念模型总体架构

训练大型概念模型需要在句子嵌入空间中使用解码器和编码器。并且可以训练新的嵌入空间来优化推理架构。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图7

本研究使用其开源 SONAR 作为句子嵌入的解码器和编码器。

SONAR解码器和编码器(图中蓝色部分)是固定的,不需要训练。

更重要的是,LCM(图中绿色)输出的概念可以被解码为其他语言或模态,而无需从头开始执行整个推理过程。

同样,特定的推理操作(例如归纳)可以在任何语言或输入方式上以零样本模式执行。

因为推理只需要对概念的操纵。

总之,LCM 既不掌握有关输入语言或模态的信息,也不生成特定语言或模态的输出。

在某种程度上,LCM 架构类似于 Jepa 方法(见下文),后者也旨在预测嵌入空间中下一个观察点的表示。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图8

论文链接:

然而,Jepa 强调以自我监督的方式学习表示空间,这与 LCM 不同,LCM 侧重于在现有嵌入空间中做出准确的预测。

模型架构设计原则

声纳嵌入空间

SONAR 文本嵌入空间使用编码器/解码器架构进行训练,用固定大小的瓶颈替换交叉注意力,如下图 2 所示。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图9

SONAR广泛应用于机器翻译任务,支持200种语言的文本输入和输出,76种语言的语音输入和英语输出。

由于 LCM 直接在 SONAR 概念嵌入上运行,因此它可以对其支持的所有语言和模式进行推理。

数据准备

为了训练和评估 LCM,需要将原始文本数据集转换为 SONAR 嵌入序列,每个句子对应于嵌入空间中的一个点。

然而,处理大型文本数据集存在一些实际限制。包括很难准确地分割句子,以及有些句子非常长且复杂,这会对SONAR嵌入空间的质量产生负面影响。

本文使用 SpaCy 分段器(表示为 SpaCy)和任何文本(表示为 SaT)。

其中,SpaCy是基于规则的句子切分器,SaT在token级别预测句子的边界进行句子切分。

新的分段器 SpaCy 和 SaT 也通过限制句子的长度进行了定制。

好的分段器会生成经过编码然后解码的分段,而不会丢失信号,从而获得更高的分数。

为了分析分段器的质量,从预训练数据集中提取了 10k 个文档,代表大约 500k 个句子。

在测试中,使用每个分段器处理文档,然后对句子进行编码和解码,并计算分数。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图10

如图 3 所示,如果字符上限为 200,则 SaT 方法始终略优于 SpaCy。

然而,随着句子长度的增加,这两种分段器都表现出明显的性能缺陷。

当句子长度超过 250 个字符时,这种糟糕的性能尤其明显,凸显了使用没有上限的分段器的局限性。

基础-LCM

下一个概念预测(next)的基线架构是一个标准的仅解码器,它将一系列先前的概念(即句子嵌入)转换为一系列未来的概念。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图11

如图4所示,Base-LCM配备有“”和“”。标准化输入 SONAR 嵌入并将其映射到模型的隐藏维度。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图12

Base-LCM 在半监督任务上学习。模型通过优化预测的下一个概念与真实的下一个概念之间的距离来预测下一个概念并优化参数,即通过MSE回归来优化参数。

基于扩散的 LCM(基于扩散的 LCM)

基于扩散的 LCM 是一种生成潜变量模型,可以学习模型分布 pθ 来近似数据分布 q。

与基本 LCM 类似,扩散 LCM 建模被视为一种自动回归模型,一次在文档中生成一个概念。

大概念模型“Large Model”并不是简单的“下一个令牌”,而是一种“下一个”,意味着下一个概念的生成是以前一个上下文为条件的。

具体来说,在序列中的第n个位置,模型根据之前所有的概念来预测这里某个概念的概率,并学习连续嵌入的条件概率。

为了学习连续数据的条件概率,可以使用计算机视觉中的扩散模型来生成句子嵌入。

文章讨论了如何设计不同的扩展模型来生成句子嵌入,包括不同类型的前向去噪过程和反向去噪过程。

根据不同的方差进度( ),产生不同的噪声进度(noise),从而生成对应的前向过程;通过不同的权重策略,体现出不同初始状态对模型的影响。

文章提出了 3 种类型的噪声表:余弦、二次函数和。

并提出重建损失加权策略:

本文详细讨论了不同噪声计划和加权策略的影响。结果如下:

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图13

一塔扩散LCM(One-Tower LCM)在图像领域使用扩散加速技术,也可以加速LCM推理。

如图 6 的左图所示,单塔扩散 LCM 由一个主干组成,其任务是预测给定句子嵌入和噪声输入的干净的下一个句子嵌入。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图14

二塔扩散LCM (Two-Tower-LCM)

如图6右侧所示,双塔扩散LCM模型将前一个上下文的编码与下一个嵌入的扩散分开。

第一个模型是上下文注释模型,将上下文向量作为输入并对它们进行因果编码。

也就是说,应用具有因果自注意力的纯解码器。

然后,上下文分析器的输出被输入到第二个模型,即 ()。

它通过迭代地对潜在高斯潜在变量进行去噪来预测干净的下一个句子嵌入。

降噪器由一系列专注于编码上下文的交叉注意力块组成。

降噪器和上下文转换器共享相同的隐藏维度。

降噪器中每一层(包括交叉注意力层)的每个块都使用自适应层范数(AdaLN)。

在训练过程中,Two-Tower 的参数针对无监督嵌入序列的下一句预测任务进行了优化。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图15

因果嵌入在降噪器中移动一个位置,并且在交叉注意层中使用因果掩模。在上下文向量中预设一个零向量,以便预测序列中的第一个位置(参见图 8)。为了有条件和无条件地训练模型,为无分类器引导缩放推理做好准备,以一定比例从交叉注意掩码中删除随机行,并仅使用零向量作为上下文对相应位置进行去噪。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图16

定量LCM 在图像或语音生成领域,目前主要有两种处理连续数据生成的方法:一种是扩散建模,另一种是首先学习量化数据,然后基于这些离散单元进行建模。 。

此外,文本模态仍然是离散的。虽然它处理 SONAR 空间中的连续表示,但所有可能的文本句子(少于给定数量的字符)都是 SONAR 空间中的点云,而不是真正的连续分布。 。

这些考虑促使作者探索量化 SONAR 表示,然后对这些离散单元进行建模以解决下一个句子预测任务。

最后,这种方法使得使用温度、top-p 或 top-k 采样来控制采样的下一个句子表示的随机性和多样性水平变得很自然。

声纳表示可以使用残差矢量量化作为从粗到细的量化技术来离散化。

矢量量化将连续输入嵌入映射到学习的码本中最近的元素。

RVQ 的每次迭代都使用额外的码本来迭代量化先前量化的残余误差。

RVQ 码本在实验中使用从 Crawl 中提取的 1500 万个英语句子进行训练,使用 64 个量化器,每个码本使用 8192 个单元。

RVQ 的一个属性是第一个码本的中心点嵌入的累积和是输入 SONAR 向量的适度粗略近似。

这样,在使用 SONAR 文本解码器对量化嵌入进行解码之前,可以探索 SONAR 嵌入的码本数量对自动编码 BLEU 分数的影响。

如图9所示,随着码本数量的增加,自动编码BLEU不断改进。

当使用所有 64 个码本时,自动编码 BLEU 分数约为使用连续 SONAR 嵌入时自动编码 BLEU 分数的 70%。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图17

模型分析

推理效率

作者直接比较了双塔扩散LCM和LLM的推理计算成本,即不同输出长度和总输出长度(短语)下的计算成本。

具体来说,在论文的图13中,作者分析了大型概念模型(LCM)和大型语言模型的推理所需的每秒浮点运算(flops)的理论数量。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图6

如左图所示,LLM仅在非常短的句子(小于或等于10个token)中具有优势。

当上下文超过约10000个token时,无论是Two-tower LCM(1.6B)还是Two-tower LCM(7B),token数量几乎不再影响推理所需的计算量。

声纳空间的脆弱性

在潜在空间中建模时,我们主要依靠诱导几何(L2-距离)。

然而,任何底层表示的同质欧几里得几何都不会完全符合底层文本语义。

嵌入空间中的小扰动可能导致解码后语义信息的急剧丢失,这一事实证明了这一点。

这种性质被称为嵌入“脆弱性”。

因此,需要量化语义嵌入(即 SONAR 代码)的脆弱性,以便了解 LCM 训练数据的质量以及这种脆弱性如何阻碍 LCM 的训练动态。

给定文本片段 w 及其 SONAR 代码 x=(w),将 w 的漏洞定义为

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图18

随机采样 5000 万个文本片段,并为每个样本生成 9 个不同噪声级别的扰动。并且在实验中,对于外部余弦相似度()指标,使用mGTE作为外部编码器。

具体漏洞评分结果如图14所示。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图19

图 14 中的左图和右图分别描绘了 BLUE 和分数随文本长度和噪声水平变化的曲线。

可以观察到,BLEU 分数比余弦相似度下降得更快。

最重要的是,脆弱性分数对解码器的选择很敏感。具体来说,随着噪声量的增加,微调解码器的自动编码 BLEU 和余弦相似度分数下降速度明显慢于基本解码器。

还值得注意的是,在平均扰动水平下,总体分数分布如图 15 所示,并且 SONAR 样本之间的漏洞分数差异很大。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图20

造成这种差异的原因可能是句子长度。与自动编码 BLEU 指标(在长句子上仅下降 1-2%)相比,脆弱性对句子长度更敏感,并且在两个相似性指标中下降得更快。

这表明使用最大句子长度超过250的SONAR和LCM模型将面临极大的挑战。另一方面,虽然短句子平均而言更稳健,但在错误的位置分割长句子可能会导致更短但更脆弱的子句。

不同任务的评估

表10列出了不同基线和LCM在摘要任务上的结果,分别包括CNN和XSum数据集。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图21

与专门调整的 LLM (T5-3B) 相比,LCM 的 Rouge-L(表中的 RL 列)分数也具有竞争力。

OVL-3 分数较低表明新模型倾向于生成更多抽象摘要而不是提取摘要。 LCM 产生的重复次数比 LLM 少,更重要的是,它的重复率更接近真实的重复率。

根据 CoLA 分类器分数,LCM 生成的摘要通常不太平滑。

然而,即使是人工生成的摘要在这个分数上也低于法学硕士。

在来源归因(SH-4)和语义覆盖(SH-5)中也发现了类似的现象。

这可能是由于基于模型的指标更偏向于 LLM 生成的内容。

表 11 列出了长文档摘要的结果(LCFO.5%、LCFO.10% 和 LCFO.20%)。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图22

在预训练和微调数据中,LCM 只看到了有限数量的长文档。

然而,它在这项任务中表现良好。

在5%和10%条件下,其Rouge-L指数优于-7B-v0.3-IT和Gemma-7B-IT。

在 5% 和 10% 条件下,度量 Rouge-L 优于 -7B-v0.3-IT 和 Gemma-7B-IT,在 20% 条件下接近 Gemma-7B-IT。

还观察到 LCM 在所有条件下都取得了较高的 SH-5 分数,也就是说,摘要可以归因于来源。

LCM 的扩展摘要扩展是指在给定摘要的情况下创建更长的文本。目标不是重新创建初始文档的事实信息,而是评估模型以有意义且流畅的方式扩展输入文本的能力。 。

当考虑到简洁文档具有类似摘要的属性(即主要是从细节中抽象出来的独立文档)时,摘要扩展​​任务可以描述为生成较长文档的行为,该较长文档保留相应的短文档的基本元素和逻辑结构连接这些元素。

由于这是一项形式更加自由的生成任务,因此还需要考虑连贯性要求(例如,一个生成的句子中包含的细节不应与另一个句子中包含的信息相矛盾)。

这里提出的摘要扩展任务涉及将 CNN 和 XSum 的摘要作为输入并生成一个长文档。

表12显示了CNN和XSum的汇总扩展结果。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图23

图中,黑色加粗代表最好的结果。

零样本泛化能力使用XLSum语料库来测试新模型的泛化能力。

XLSum 语料库是一个涵盖 45 种语言的大规模多语言摘要新闻摘要基准。

该论文将 LCM 与 Llama-3.1-8B-IT 的性能进行了比较,Llama-3.1-8B-IT 支持八种语言:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

Meta AI推出大概念模型:下一代AI系统LCM将革新语言建模与推理方式插图24

作者在图 16 中报告了 42 种语言的 Rouge-L 分数。排除了 SONAR 目前不支持的三种语言:使用拉丁字母的塞尔维亚语和使用西里尔字母的乌兹别克语。

在英语中,LCM 明显优于 Llama-3.1-8B-IT。

LCM 可以很好地推广到许多其他语言,尤其是南普什图语、缅甸语、豪萨语或威尔士语等资源匮乏的语言,所有这些语言的 Rouge-L 分数都大于 20。

其他表现良好的低资源语言有索马里语、伊博语或基隆迪语。

最后,LCM的越南Rouge-L得分为30.4。

总而言之,这些结果凸显了 LCM 对以前从未见过的语言的令人印象深刻的零样本泛化性能。

总结

此外,文章还描述了明确的规划、方法论、相关方法和模型局限性。

本文讨论的模型和结果是朝着增加科学多样性迈出的一步,也是超越当前大规模语言建模最佳实践的一步。

作者也承认,要达到目前最强LLM的成绩还有很长的路要走。

参考:

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论