首页 » 财经投稿 » 正文

ModernBERT：更现代的BERT模型，更快更准，上下文长度提升至8192 token

2024-12-24 146

进不了网站？换个网络试试！

量子比特 |公众号

时隔6年，曾经被认为濒临死亡的“BERT”回来了——

更现代的出现，更快，更准确，具有更长的上下文，作为开源发布！

去年，一张“大语言模型进化树”的动画图在学术界疯传。 ——only欣欣向荣，但是，曾经繁荣的——only，却似乎走向了没落。

作者说：

-仅被低估。

他们最近推出了两款型号，参数分别为139M（Base）和395M（Large）。上下文长度为 8192 个标记。与大多数以BERT为首的编码器相比，它们的长度长了16倍。

它特别适用于信息检索（RAG）、分类、实体提取等任务。

在检索、自然语言理解和代码检索测试中性能达到 SOTA：

效率也很高。

速度提高一倍；通过更常见的输入长度混合，速度提高高达 4 倍；长上下文推理比其他模型快约 3 倍。

关键是它占用的内存还不到五分之一。

表示当前关于生成模型的热烈讨论掩盖了-only模型的作用。

像 GPT-4 这样的大型模型太大、太慢、私有化且成本高昂，并且不适合许多任务。还有Llama 3.1，参数达到405B。

这些模型速度慢、成本高并且不受您的控制。

像 GPT-4 这样的生成模型也有一个局限性：它们无法提前看到后续的 token，只能根据之前生成的或已知的信息进行预测，即只能向后看。

像 BERT 这样的纯编码器模型可以同时考虑上下文和上下文信息，无论是前向还是后向。

发布后吸引了数十万网友在线观看和点赞。

花黄连联合创始人兼CEO克莱姆前来力挺并表示“我喜欢！！”。

为什么叫“现代”呢？相比BERT做了哪些升级？

仅限不可杀死

现代性体现在三个方面：

让我们一一看看。

首先，深受++（以Mamba命名）的启发，该架构的第一个应用是在一系列模型上。

该团队用其改进版本替换了旧的类似 BERT 的构建模块，主要包括以下改进：

接下来，在提高速度/效率方面，采用了Flash 2进行改进，主要依赖于三个关键组件：

一是利用交替注意力（）来提高处理效率。

二是使用sum来减少计算浪费。

三是通过硬件感知模型设计（-Aware Model）最大化硬件利用率。

我这里就不详细说了。有兴趣的小朋友可以自行查看原论文。

最后，让我们看看训练和数据方面的改进。

该团队认为，训练数据滞后背后的实际问题在于训练数据的多样性，即许多旧模型是在有限的语料库上训练的，这些语料库通常只包括维基百科和书籍，而这些数据只有单一文本情态。

因此，训练时使用了多种数据，包括网络文档、编程代码和科学文章，涵盖2万亿个token，其中大部分是唯一的，而不是之前常见的20-40个重复数据。

在训练过程中，团队坚持使用原来的BERT训练公式，并做了一些小升级，比如去掉下一句预测目标，因为研究表明这样的设置增加了开销但没有明显的好处，而且还减少了mask率从15%提高到30%。

具体来说，139M和395M模型都通过了三阶段训练。

首先，第一阶段，序列长度为1024时训练1.7T。然后是长上下文适应阶段，模型处理的序列长度增加到8192，训练数据量为250B，同时保持通过减少批量大小，每批处理的总量大致相同。最后，模型在 500 亿个临时样本上进行退火，遵循强调长上下文扩展的理想混合。

经过一些操作后，该模型在长上下文任务上表现得具有竞争力，并且其处理短上下文的能力没有受到损害。

训练过程团队还对学习率做了特殊处理。在前两个阶段，模型采用恒定学习率，而在最后的500亿次退火阶段，采用阶梯学习率策略（预热-稳定-衰减）。

该团队还使用两种技术来加速模型的训练过程。一种是常见的batch-size，另一种是受到微软Phi系列模型的启发，利用现有性能良好的-base模型权重，通过转换base模型的权重。 “平铺”扩展到更大的模型，并提高了权重初始化的效果。

作者透露，他们将被公开以支持后续研究。

谁建造的？

前述者是该作品的作者之一。

三位核心作者是：

, , 克拉维昂。

据透露，该项目最初由 Clavié 七个月前发起，随后作为该项目的联合领导者加入。

ClaviéOn，相同，来自 .AI。 .AI打造了一款可以用AI解决问题、解释概念、记忆和复习考试的教育应用，在北美比较流行。

它来自一家做生成式人工智能的公司。

该团队表示，虽然 BERT 似乎被谈论得较少，但如今它仍然被广泛使用：

目前，该平台每月下载量超过6800万次。正是由于其唯一的架构，它非常适合解决日常事件检索（例如 RAG）、分类（例如内容审核）和实体提取任务。

该公司表示，明年将训练该模型的更大版本。

博客：

-根据：

-大的：

纸：

参考链接：

本站候鸟号已成立3年，主要围绕财经资讯类，分享日常的保险、基金、期货、理财、股票等资讯，帮助您成为一个优秀的财经爱好者。本站温馨提示：股市有风险，入市需谨慎。

标签：GPT-4 · ModernBERT

暂无评论

发表评论取消回复

要发表评论，您必须先登录。