MiniMax首次发布开源模型,采用Lightening Attention机制,上下文长度达顶尖模型20-32倍

进不了网站?换个网络试试!

这是首次发布开源模型,是一次爆炸性的模型架构创新:新模型采用了独特的机制,借鉴了(线性注意力)机制。这是世界上第一个将该机制引入商业规模的模型。之中。

效果也是立竿见影的。模型上下文长度直接达到顶级模型的20-32倍,推理时的上下文窗口可达400万个token。这一模式效应立即引起海外关注。

MiniMax首次发布开源模型,采用Lightening Attention机制,上下文长度达顶尖模型20-32倍插图

X用户感叹-Text-01 400万代币可以实现大海捞针的完美|图片来源:X

MiniMax首次发布开源模型,采用Lightening Attention机制,上下文长度达顶尖模型20-32倍插图1

中国公司又一强大模型在学术测试集上表现优异 |图片来源:X

模型的上下文窗口是指模型在生成每个新令牌时实际引用的先前内容的范围。就像模型一次可以从书架上拉出的书籍数量一样。模型的上下文窗口越大,生成模型时可以参考的信息就越多,表现也会更加智能。

2025年初,长上下文窗口有了新的意义:为模型的代理能力打下坚实的基础。

业界公认,2025年,Agent能力将是AI行业关注的焦点。联都本周推出了 AI Agent 的原型 Tasks。 2025年,我们很可能会看到越来越多真正“完全自动化”的人工智能在我们的生活中发挥作用。甚至还有不同的“全自动”人工智能一起工作来帮助我们处理事情。这对基础模型的功能提出了巨大的考验。长上下文是Agent能力实现的必要条件。

看来2025年,大基础车型的争夺战还没有结束;中国企业才刚刚开始发力。

01

建筑学

首次大规模使用

这个开源模型最大的创新在于它使用了一种独特的机制,这是一种线性注意力。

在传统架构中,消耗计算能力和内存最多的部分往往是自注意力(Self-)机制。原因是标准的自注意力需要成对计算所有单词(Token)的注意力分数,并且随着序列长度n的增长,计算量变成平方(O(n²))。

用通俗的话说,就像你在举办一个有很多人的联谊会。如果每个人都必须成双成对地打招呼,那么随着人数的增加,沟通成本就会急剧上升,每个人都得重复无数次“握手”。

这就带来了一系列问题——其中之一就是作为模特脉络窗口的联谊会人数难以无限扩大。如果坚持扩容,对算力的要求就非常高。

为了应对这一挑战,研究人员传统上提出了各种方法来降低注意力机制的计算复杂度,包括稀疏注意力、(线性注意力)、长卷积、状态空间模型和线性RNN。

这次开源的模型借用了(线性注意力)方法。

这个想法就像为会场安排几个“快速约会助理”一样。每个人首先把自己的关键信息交给助理,比如“你想认识什么样的人,你擅长什么?”助理整理完这些信息后,直接告诉每个人最适合交谈的人。这样大家就不用一一介绍自己了,整个匹配过程更加高效,沟通成本也大大降低。

然而,之前的理论创新在商业规模模型中的采用有限。该团队首次在大型商业规模模型上验证了该机制的可行性。

这意味着一项技术从实验室走向现实世界。

该团队使用传统的变体,团队称之为 。它解决了现有机制计算效率的主要瓶颈:因果累加和运算的缓慢性,并采用新颖的阻塞技术有效避免累加和运算。

在某些特定任务上,例如检索和长距离依赖建模,性能可能不如注意力那么强。

团队引入了混合注意力机制来解决这个问题:在最终的模型架构中,每8层中,有7层用于高效处理局部关系;而剩下的 1 层则保留传统的注意力,以确保捕获关键的全局上下文。

这种建筑创新的效果是惊人的。

-01系列模型参数高达4560亿,其中单次激活459亿。虽然目前主流模型的上下文窗口长度仍在128k左右,但-01系列模型可以在100万个token的上下文窗口上进行训练。在推理过程中,上下文窗口可以外推到 400 万个,是 GPT-4o 的 32 倍。 ,-3.5-的20倍。

在面向现实场景、进行长上下文多任务进行深度理解和推理的第三方评估v2的最新结果中,-Text-01排名第三,仅次于o1-和人类。

MiniMax首次发布开源模型,采用Lightening Attention机制,上下文长度达顶尖模型20-32倍插图2

模型在v2上的评估表现|图片来源:

在基础模型性能方面,-01系列模型在标准学术基准上也可与顶级闭源模型相媲美。不仅如此,随着模型上下文长度逐渐变长,模型的性能下降最为平缓——虽然有些模型声明上下文窗口长度更长,但实际使用时,在长上下文条件下效果并不好。

MiniMax首次发布开源模型,采用Lightening Attention机制,上下文长度达顶尖模型20-32倍插图3

-01系列机型堪比顶级闭源机型|图片来源:论文

该团队比较了 CSR(常识推理)、NIAH(大海捞针)等基准测试。在相同的计算资源下,使用7/和1/8的混合注意力模型可以放入更多的参数并处理更多的数据。在多个数据的情况下,训练效果比仅使用的模型更好,并且损失更低。

MiniMax首次发布开源模型,采用Lightening Attention机制,上下文长度达顶尖模型20-32倍插图4

混合架构在基准测试中表现更好|图片来源:Paper

02

为特工时代爆发前夕做好准备

2024年以来,长上下文一直是模型迭代的重要方向。

在这个领域,国内外Kimi都是坚定的投资者。 2024年底,CEO Demis表示,在内部测试中,正在对无限上下文窗口发起冲击。

有些人可能会感到困惑。本次发布的-01系列模型的上下文窗口长度已达到400万个代币。如果两个token约等于一个汉字,那么它已经约等于200万个字符的上下文窗口。人类需要在如此多的背景下与人工智能对话吗?

答案是,关注长上下文的公司可能关注的并不是当前的问答式AI场景,而是其背后的Agent时代。

无论是单个Agent需要的持久内存,还是多Agent协作带来的通信,长链接任务需要越来越长的上下文。

长上下文在各种Agent应用场景中将具有重要意义。

在搜索场景中,这可能意味着用户可以一次性看到更全面的答案,并直接获得更准确的答案。

在未来的生产力工具中,这可能意味着用户拥有无限的工作记忆。经过无数次的版本修改,当甲方要求你仍然使用第一版的文章结构和第三版的字幕时,你可以轻松地回复“好的”,然后让AI一键生成两个版本。融合。

在未来的学习工具中,这可能意味着用户可以直接拥有更大的知识库。通过直接上传教材,AI可以根据内容进行教学。

在与AI助手的对话中,它会像一个智能人类助手一样,真正记住你之前说过的话,并在你需要的时候“记住”它。该团队论文中的一个场景说明了这个问题。

该模型被要求从多达 1889 个历史交互(英语基准)或 2053 个历史交互(中文基准)中准确检索用户的一次历史交互——用户反复要求 AI 写关于企鹅的诗,同时进行多个不相关的操作。对话最后要求人工智能提供它最初写的关于企鹅的诗。 -01 仍然能很好地完成这项工作。

MiniMax首次发布开源模型,采用Lightening Attention机制,上下文长度达顶尖模型20-32倍插图5

长上下文的任务表现|图片来源:Paper

对于Agent来说,另一个重要的能力是视觉理解——此次同系列也发布了VL-01。这是一个大型视觉多模态模型,也使用线性注意力架构,并具有 400 万个 token 上下文窗口。

在2024-Meta眼镜的爆火之后,今年智能硬件的一大看点就是AI眼镜能否真正让AI成为人们的随身助手。要成为便携式AI,AI必备的能力是长上下文——记住你所有的生活场景,以便以后为你提供个性化的提醒和建议。

这样的记忆将是“真正的记忆”,与现在的记忆功能所能提供的简单效果完全不同。

要真正实现便携式人工智能代理,跨模态理解和无限上下文窗口是基本能力。

论文最后表示,未来我们将在线性的道路上实现最终目标,尝试完全取消层,最终实现无限长的上下文窗口。

03

基础模型的创新并未消亡;

中国企业潜力巨大

值得注意的是,这是该公司首次推出开源模式。

该大型型号被命名为-01系列。从内部序列看,原来是abab-8系列型号。

在上一代abab-7模型中,已经实现了线性注意力和MOE的架构,而在abab-8中,取得了更好的效果。

这次我们选择了这个时间点来开源模型,并从这个节点开始更名为model-01。

这似乎代表了公司理念的转变。

过去,该公司给外界的印象是业务稳定、工作低调。

从星野到海螺AI,都有自己忠实的用户群体。去年公开发布时称,每天调用文本代币3万亿,在国内AI公司中名列前茅。

这些应用背后的AI技术一直比较神秘。在此之前,主要用于支持公司自身业务。这次开源似乎是一个转折点。这是首次向外界高调展示技术实力。

据介绍,该模型可在8张GPU单卡、640GB内存上实现100万个token的单节点推理。希望这个开源将帮助其他人开发突破当前模型限制的解决方案。

回顾过去,自从Meta推出、Llama系列开源模型发布以来,一直有声音说基础模型的创新已经走到了尽头,或者说只有少数国际科技巨头拥有创新未来模型架构的能力。

中国企业最近的两次开源行动告诉我们事实并非如此。

2024年,其突破性的MLA架构震惊了全球人工智能行业,证明了中国企业的技术创造力。

2025年伊始,它以全新的架构再次刷新了行业认知,验证了一条此前非共识的技术路径。

中国人工智能企业不仅具备工程化和商业化能力,更具备推动底层技术创新的能力。

新的一年,无论是人工智能应用的普及,还是金字塔顶端技术的进步,我们都可以对中国人工智能企业期待更多。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论