ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token

进不了网站?换个网络试试!

量子比特 |公众号

时隔6年,曾经被认为濒临死亡的“BERT”回来了——

更现代的出现,更快,更准确,具有更长的上下文,作为开源发布!

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图

去年,一张“大语言模型进化树”的动画图在学术界疯传。 ——only欣欣向荣,但是,曾经繁荣的——only,却似乎走向了没落。

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图1

作者说:

-仅被低估。

他们最近推出了两款型号,参数分别为139M(Base)和395M(Large)。上下文长度为 8192 个标记。与大多数以BERT为首的编码器相比,它们的长度长了16倍。

它特别适用于信息检索(RAG)、分类、实体提取等任务。

在检索、自然语言理解和代码检索测试中性能达到 SOTA:

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图2

效率也很高。

速度提高一倍;通过更常见的输入长度混合,速度提高高达 4 倍;长上下文推理比其他模型快约 3 倍。

关键是它占用的内存还不到五分之一。

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图3

表示当前关于生成模型的热烈讨论掩盖了-only模型的作用。

像 GPT-4 这样的大型模型太大、太慢、私有化且成本高昂,并且不适合许多任务。还有Llama 3.1,参数达到405B。

这些模型速度慢、成本高并且不受您的控制。

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图4

像 GPT-4 这样的生成模型也有一个局限性:它们无法提前看到后续的 token,只能根据之前生成的或已知的信息进行预测,即只能向后看。

像 BERT 这样的纯编码器模型可以同时考虑上下文和上下文信息,无论是前向还是后向。

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图5

发布后吸引了数十万网友在线观看和点赞。

花黄连联合创始人兼CEO克莱姆前来力挺并表示“我喜欢!!”。

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图6

为什么叫“现代”呢?相比BERT做了哪些升级?

仅限不可杀死

现代性体现在三个方面:

让我们一一看看。

首先,深受++(以Mamba命名)的启发,该架构的第一个应用是在一系列模型上。

该团队用其改进版本替换了旧的类似 BERT 的构建模块,主要包括以下改进:

接下来,在提高速度/效率方面,采用了Flash 2进行改进,主要依赖于三个关键组件:

一是利用交替注意力( )来提高处理效率。

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图7

二是使用sum来减少计算浪费。

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图8

三是通过硬件感知模型设计(-Aware Model)最大化硬件利用率。

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图9

我这里就不详细说了。有兴趣的小朋友可以自行查看原论文。

最后,让我们看看训练和数据方面的改进。

该团队认为,训练数据滞后背后的实际问题在于训练数据的多样性,即许多旧模型是在有限的语料库上训练的,这些语料库通常只包括维基百科和书籍,而这些数据只有单一文本情态。

因此,训练时使用了多种数据,包括网络文档、编程代码和科学文章,涵盖2万亿个token,其中大部分是唯一的,而不是之前常见的20-40个重复数据。

在训练过程中,团队坚持使用原来的BERT训练公式,并做了一些小升级,比如去掉下一句预测目标,因为研究表明这样的设置增加了开销但没有明显的好处,而且还减少了mask率从15%提高到30%。

具体来说,139M和395M模型都通过了三阶段训练。

首先,第一阶段,序列长度为1024时训练1.7T。然后是长上下文适应阶段,模型处理的序列长度增加到8192,训练数据量为250B,同时保持通过减少批量大小,每批处理的总量大致相同。最后,模型在 500 亿个临时样本上进行退火,遵循强调长上下文扩展的理想混合。

经过一些操作后,该模型在长上下文任务上表现得具有竞争力,并且其处理短上下文的能力没有受到损害。

训练过程团队还对学习率做了特殊处理。在前两个阶段,模型采用恒定学习率,而在最后的500亿次退火阶段,采用阶梯学习率策略(预热-稳定-衰减)。

该团队还使用两种技术来加速模型的训练过程。一种是常见的batch-size,另一种是受到微软Phi系列模型的启发,利用现有性能良好的-base模型权重,通过转换base模型的权重。 “平铺”扩展到更大的模型,并提高了权重初始化的效果。

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图10

作者透露,他们将被公开以支持后续研究。

谁建造的?

前述者是该作品的作者之一。

三位核心作者是:

, , 克拉维昂。

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图11

据透露,该项目最初由 Clavié 七个月前发起,随后作为该项目的联合领导者加入。

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图12

ClaviéOn,相同,来自 .AI。 .AI打造了一款可以用AI解决问题、解释概念、记忆和复习考试的教育应用,在北美比较流行。

它来自一家做生成式人工智能的公司。

该团队表示,虽然 BERT 似乎被谈论得较少,但如今它仍然被广泛使用:

目前,该平台每月下载量超过6800万次。正是由于其唯一的架构,它非常适合解决日常事件检索(例如 RAG)、分类(例如内容审核)和实体提取任务。

该公司表示,明年将训练该模型的更大版本。

ModernBERT:更现代的BERT模型,更快更准,上下文长度提升至8192 token插图13

博客:

-根据:

-大的:

纸:

参考链接:

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论