量子比特 |公众号
时隔6年,曾经被认为濒临死亡的“BERT”回来了——
更现代的出现,更快,更准确,具有更长的上下文,作为开源发布!
去年,一张“大语言模型进化树”的动画图在学术界疯传。 ——only欣欣向荣,但是,曾经繁荣的——only,却似乎走向了没落。
作者说:
-仅被低估。
他们最近推出了两款型号,参数分别为139M(Base)和395M(Large)。上下文长度为 8192 个标记。与大多数以BERT为首的编码器相比,它们的长度长了16倍。
它特别适用于信息检索(RAG)、分类、实体提取等任务。
在检索、自然语言理解和代码检索测试中性能达到 SOTA:
效率也很高。
速度提高一倍;通过更常见的输入长度混合,速度提高高达 4 倍;长上下文推理比其他模型快约 3 倍。
关键是它占用的内存还不到五分之一。
表示当前关于生成模型的热烈讨论掩盖了-only模型的作用。
像 GPT-4 这样的大型模型太大、太慢、私有化且成本高昂,并且不适合许多任务。还有Llama 3.1,参数达到405B。
这些模型速度慢、成本高并且不受您的控制。
像 GPT-4 这样的生成模型也有一个局限性:它们无法提前看到后续的 token,只能根据之前生成的或已知的信息进行预测,即只能向后看。
像 BERT 这样的纯编码器模型可以同时考虑上下文和上下文信息,无论是前向还是后向。
发布后吸引了数十万网友在线观看和点赞。
花黄连联合创始人兼CEO克莱姆前来力挺并表示“我喜欢!!”。
为什么叫“现代”呢?相比BERT做了哪些升级?
仅限不可杀死
现代性体现在三个方面:
让我们一一看看。
首先,深受++(以Mamba命名)的启发,该架构的第一个应用是在一系列模型上。
该团队用其改进版本替换了旧的类似 BERT 的构建模块,主要包括以下改进:
接下来,在提高速度/效率方面,采用了Flash 2进行改进,主要依赖于三个关键组件:
一是利用交替注意力( )来提高处理效率。
二是使用sum来减少计算浪费。
三是通过硬件感知模型设计(-Aware Model)最大化硬件利用率。
我这里就不详细说了。有兴趣的小朋友可以自行查看原论文。
最后,让我们看看训练和数据方面的改进。
该团队认为,训练数据滞后背后的实际问题在于训练数据的多样性,即许多旧模型是在有限的语料库上训练的,这些语料库通常只包括维基百科和书籍,而这些数据只有单一文本情态。
因此,训练时使用了多种数据,包括网络文档、编程代码和科学文章,涵盖2万亿个token,其中大部分是唯一的,而不是之前常见的20-40个重复数据。
在训练过程中,团队坚持使用原来的BERT训练公式,并做了一些小升级,比如去掉下一句预测目标,因为研究表明这样的设置增加了开销但没有明显的好处,而且还减少了mask率从15%提高到30%。
具体来说,139M和395M模型都通过了三阶段训练。
首先,第一阶段,序列长度为1024时训练1.7T。然后是长上下文适应阶段,模型处理的序列长度增加到8192,训练数据量为250B,同时保持通过减少批量大小,每批处理的总量大致相同。最后,模型在 500 亿个临时样本上进行退火,遵循强调长上下文扩展的理想混合。
经过一些操作后,该模型在长上下文任务上表现得具有竞争力,并且其处理短上下文的能力没有受到损害。
训练过程团队还对学习率做了特殊处理。在前两个阶段,模型采用恒定学习率,而在最后的500亿次退火阶段,采用阶梯学习率策略(预热-稳定-衰减)。
该团队还使用两种技术来加速模型的训练过程。一种是常见的batch-size,另一种是受到微软Phi系列模型的启发,利用现有性能良好的-base模型权重,通过转换base模型的权重。 “平铺”扩展到更大的模型,并提高了权重初始化的效果。
作者透露,他们将被公开以支持后续研究。
谁建造的?
前述者是该作品的作者之一。
三位核心作者是:
, , 克拉维昂。
据透露,该项目最初由 Clavié 七个月前发起,随后作为该项目的联合领导者加入。
ClaviéOn,相同,来自 .AI。 .AI打造了一款可以用AI解决问题、解释概念、记忆和复习考试的教育应用,在北美比较流行。
它来自一家做生成式人工智能的公司。
该团队表示,虽然 BERT 似乎被谈论得较少,但如今它仍然被广泛使用:
目前,该平台每月下载量超过6800万次。正是由于其唯一的架构,它非常适合解决日常事件检索(例如 RAG)、分类(例如内容审核)和实体提取任务。
该公司表示,明年将训练该模型的更大版本。
博客:
-根据:
-大的:
纸:
参考链接:
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论