2月21日报道,“科学技术创新委员会”(记者黄Xinyi)报道,人工智能繁荣仍在继续。面对这个极其活跃的“ AI春季”,全球大型模型市场的球员正在加速他们的行动。
联合创始人Lin Dahua来自“科学技术创新委员会日报”的记者专门了解到,在封闭的交换会议上,他谈到了他的观点,计算能力需求,未来的AI技术路径,的未来大型模型计划等。
林达瓦(Lin Dahua)认为,市场对计算能力的需求不会降低,并且在可见光的2025年中,对计算能力的总体需求将继续增长。尤其是在推理能力的持续突破中,它驱动了下游应用市场的迅速扩展,推理市场显示出短暂供应和快速增长的供应趋势。
作为对开源路线的坚持,圆圈的出现也被认为是开源的胜利。林达瓦(Lin Dahua)认为,开源不仅改变了全球AI和大型工业结构,而且还可以加速技术的传播和普及。其次,开源模型正在很快赶上,并且具有顶部封闭源模型的差距正在迅速缩小。将来,大型模型应用程序将从诸如问答和文本重写之类的浅层工具转变为更换行业中高价值的核心任务。大型模型需要突破特定行业任务的工业红线,以实现大规模应用。开源只是技术价值链中的一个链接,而不是整个链接。
以下是Lin Dahua交流的笔录:
R1选择了独特的主流路径
问:春季音乐节期间的AI热潮再次出现,全国讨论达到了新的高潮。最强大的突破是什么?
Lin Dahua:有两个新版本,一个是V3基本模型,另一个是R1推理模型。这两个模型的核心亮点是不同的。 V3在于在模型和系统垂直整合后实现的训练效率的优化;尽管R1是建立强大推理功能的新算法途径。
首先,让我们谈谈V3。 V3在许多评估中具有出色的总体表现,强大的综合功能和出色的表现。为什么V3能够达到如此高的水平主要是由于两个方面。首先,该模型本身达到一流的大规模模型的水平,首先是数据的多样性和高质量处理。这是任何基本模型都能达到很高水平的基本原因,V3也不例外。
另一个关键因素是V3的训练效率很高。它通过对模型结构,训练方法和并行策略的联合优化来提高培训效率,并达到更高的水平。培训大型模型以几百万美元完成。
具体而言,R1能够将培训成本降低到如此低的水平,主要依赖于优化的两个方面。首先,采用MOE体系结构的模型结构。如今,几乎所有的前线公司都使用Moe(混合专家架构),因此这并不特别。但是,它采用了更好的MOE负载平衡策略,从而提高了MOE培训的效率。另一个关键因素是训练技术的优化:确定模型结构后,培训方法本身还结合了多种策略。首先,它使用FP8精度操作而不是传统的FP16。与FP16相比,这种提高将计算效率提高了60%以上。在FP8培训过程中,值得一提的是,它利用CUDA PTX的基本代码优化来实施有效的混合精度乘法乘以FP8培训。这是整个培训过程中最核心的运营商之一。它在提高FP8培训的效率方面起着至关重要的作用。
然后是R1,它从主流:基于结果监督的增强学习路线中选择了独特而独特的路径。首先,它基于V3形成的强大基本功能。强化学习过程本身并没有赋予模型新知识或完全前所未有的能力,而是使刺激基本模型提供的知识变得更加容易。完整推理链接。其次,在加强学习之前有一个冷阶段,这是一个“点火”阶段。尽管没有太多的数据,但它为随后的强化学习(例如指导随访等)奠定了非常重要的能力基础。然后是-r1 -Zero的加强学习培训,这是这一技术途径的核心创新。它确实具有重大影响,并且在内部和外部交叉验证中也得到了证实。这里的关键不是选择特定的强化学习算法(GRPO),而是证明基于强大的基本模型,用纯粹的结果监督的强化学习可以构成可概括的推理能力。
问:有效的培训是否会大大减少市场对计算能力的需求?
林达瓦(Lin Dahua):我们的内部判断是,对计算能力的需求不会下降,这主要基于以下观察结果:首先在培训级别上,尽管它显示出高训练效率,但其提高并没有突破,尚未达到比较水平。同龄人高两个数量级。从单个培训的成本来看,大小相同的型号,例如我们已经训练的大小相似的MOE,在训练效率方面几乎没有差异。
其次,研发投资涉及多次试验和错误,以找到最佳的技术解决方案。数百万美元的培训成本是一项单一的成本,在估计研发成本时,我们需要完全考虑。
此外,RL(增强学习)路径的成功表现出了巨大的价值,我们希望许多机构将来尝试大规模扩展RL培训,这将进一步增加计算能力需求。更重要的是,整个行业的竞争趋势。即使对单个培训的成本进行了优化,也不意味着总成本将减少。由于市场竞争是激烈的,因此效率优化将加速迭代,但不会减少总体需求。
在推理方面,随着推理能力的持续突破,它推动了下游应用程序市场的快速扩展。目前,它已经达到了一个可以与同一阶段竞争的水平。这也导致了大量用户的转移,但是其自身的承载能力有限,很难满足所有需求。因此,包括在内的市场上的许多国内制造商都推出了R1,以支持不断增长的推理需求。推理市场显示出短暂供应和快速增长的供应趋势。
基于这些因素,我们判断在可见的2025年,总体计算能力需求将继续增长。
多模式大型模型是核心发展方向
问:大型模型的未来进化路径是什么样的?
林达瓦(Lin Dahua):仍然讲述了语言模型中仍讲述的大多数故事,但是在实际的业务场景中,AI需要处理的不仅仅是语言,而是多模式数据的融合。
在现实世界中,无论是阅读报告,课堂教学还是PPT,信息输入从来都不是单个模式。语言只是我们获得的数据的一部分,并且尚未充分利用大量图像,视频,音频和传感器数据。多模式仍然是AI发展的必然方向。随着多模式技术的发展,AI将从语言模型变成推理模型,最终发展到世界模型。
基于推理和理解能力的提高,下一步的关键方向是代理。只有具有完整决策和执行功能的AI代理才能真正实现商业价值的封闭循环。这种类型的代理不再限于提供信息或建议,而可以独立完成各种任务,并以更有效和聪明的方式推动业务发展和创新。
问:多模型模型的技术阈值是什么?它是语言模型的扩展吗?
林达瓦(Lin Dahua):有些人认为多模式只是语言模型的简单扩展,但实际上,真正的多模式远不止于此。
AI应该从一开始就具有多模式的感知和理解,而不仅仅是在语言层面上。从业务角度来看,在实际应用程序方案中对多模式的需求已经很明显。实际上,应用程序方案是多模式的组合,真正的多模式不仅将不同模式的内容转换为语言令牌以获取输入。他们应该贯穿整个AI处理过程,从感知和思考到输出。更重要的是,多模式模型需要具有内存功能。这意味着对LLM技术体系结构进行彻底重建,而不仅仅是语言模型的简单扩展。
该行业进行了一般讨论:在接下来的1 - 2年中,将消耗互联网的纯粹语料库数据。但是被忽视的一个重要事实是,我们仍然有大量自然发生的视觉数据。实际上,我们已经在国内外看到了包括其他国家 /地区的一流模型研发机构,其中包括大量资金,从各种渠道收集视频数据,以培训更高级的大型模型。
从第一天开始,我们坚信多模式模型是我们的核心发展方向。原因是自然语言缺乏信息,单语言模型无法完全解决业务问题。对于多模型模型,我们设定了明确的技术目标,即:强大的互动能力,强大的推理能力和长期记忆力。
其中,多模式的强大推理能力当前具有很高的技术阈值,因为视频和图片等数据的信息密度与语言和文本完全不同。这需要对数据进行完善。这是多模式模型中非常关键的点:如何从大量冗余中提取高密度密钥信息,并将其与语言互补信息结合在一起,以进行整个分析和推理等待。在模态集成过程中,有许多技术方面需要完成,并且在内存过程中也有许多工作。
同时,整个过程还对基础架构和培训系统提出了很高的要求。在训练过程中,计算发生在GPU上,并且对答案的许多计算或生成代码的验证需要在CPU上进行,然后在视觉和其他方式的编码的计算模式中也存在差异。它需要在很短的位置,必须完成3至5个截然不同的计算,并且结果必须协调。为了有效地完成此类培训,需要在基础架构中配置不同的计算资源,并且有效的系统需要很好地协调不同的计算,并支持不同计算单元之间的频繁通信。
因此,基础设施需要强大的灵活性,并且可以随时具有弹性组合的各种资源。这就是为什么总是说应该密切集成和开发大型设备和大型模型的原因,因为如果您不掌握以下基础架构设计和资源分配,则必须与计算要求不匹配。
问:选择制作多模式的大型模型有哪些考虑?
Lin Dahua:首先,这是关于在多模式深融合中的技术优势。作为一家始于视觉领域的公司,我们对业内视觉模式的应用和价值有深刻的见解和理解。因此,从一开始,我们就建立了一条多模式技术路径作为我们技术发展的核心。大语言模型是其中的一部分,但不是全部。就多模式技术而言,我们一直处于该国的最前沿,尤其是在多种模式的深层融合时。
此外,多模式技术的重要方向是对大型视频的理解和分析。 “ Nezha 2”最近取得了非凡的票房成绩,超过100亿元人民币,在国内市场中短暂的戏剧,以及我们经常观看的视频网站和视频聊天,所有这些都显示了视频消费的规模和巨大市场价值。 。为了满足这些需求,必须有一个强大的模型可以分析,理解和结合长视频。目前,该行业中很少有公司在这一领域拥有技术储备,而在该领域积累了大量的技术积累。
在这种模型技术能力的支持下,我们将沿两个纵轴建立一个端到端的全链技术系统:
首先,专注于虚拟数字人的情感互动。 创造的数字人物不仅表达了自然,友好和感染力的语言,而且具有高质量的语音效果和视觉图像,可以与用户互动,具有个性化的记忆,了解和同情用户;
其次,专注于生产力领域。从文档分析,视频理解,核心推理引擎到数据搜索和工具调用,我们将在关键行业方向上建立真正可靠的助手,而不仅仅是知识问答机器人。通过这种方式,旨在为行业提供深入的解决方案,创造远远超出简单代币的销售,并促进行业的创新发展。
大型模型应用程序将从浅层工具转变为取代行业高价值的核心任务
问:大型模型可以赚钱吗?开源会颠覆关闭的源吗?
林达瓦(Lin Dahua):首先,开源对近年来大型模型发展的工业结构产生了深远的影响。开源不仅改变了全球AI和大型工业结构,还可以加速技术的传播和普及。其次,开源模型正在很快赶上,并且具有顶部封闭源模型的差距正在迅速缩小。
开源的核心优势在于快速传播 - 技术障碍破坏后,高级结果将迅速扩散。例如,在开源后,可以快速再现类似的模型功能。此外,开源允许更多的人参与大型模型的应用创新,并加速大型模型技术应用程序的探索和普及过程。
在这种情况下,真正的竞争优势反映在两个方面:一个是与基础架构的深入集成,并且通过软件和硬件的垂直集成来实现成本优势;另一个是通过工程优化和业务理解和模型调整来为客户提供深入的价值,在特定行业中的深入发展。
将来,大型模型应用程序将从诸如问答和文本重写之类的浅层工具转变为更换行业中高价值的核心任务。与类似,它通过突破AI 1.0时代的工业红线来实现工业复制。大型模型还需要突破特定行业任务中的工业红线,以实现大规模应用。开源只是技术价值链中的一个链接,而不是整个链接。
问:就竞争格局而言,V3和R1 API的价格是否有可能引发新的价格战?
林达瓦(Lin Dahua):当前的价格竞争导致代币账单的利润率被压缩到了成本线上,但长期低价服务很难维持。如果大规模服务提供商的价格继续低于成本,则用户量的增加将加剧损失,市场最终将恢复到接近实际成本的合理范围。
但是,实际的业务价值不是来自“基于单词的费用”,而是它是否可以解决困难的业务问题。例如,独立生成深入行业报告或完整复杂任务的能力比一般的问答要高得多。如果您仅依靠令牌费用,则很难支持连续的研发投资。
行业的最终结果取决于大型模型是否可以突破关键领域的“工业红线”并形成端到端价值闭环。最后,我认为该行业将走上这一道路:看看大型模型带来了什么价值。当您仍然通过赚钱收费时,这意味着该商业模式尚未奏效。当您真正形成高价值实施时,不可避免地会根据所提供的服务价值确定。
问:在当今的竞争格局中,桑唐的道路采取什么道路?
林达瓦(Lin Dahua):目前,许多公司或团队选择根据开源模型进行一次性微调,希望在短期内获得市场价值。与以前的技术迭代周期持续十或二十年不同,AI开发周期已大大缩短到三个月。以这种节奏,仅依靠浅调整或工具型产品的商业利润率将非常有限。如果您想真正抓住这个时代的红利,则必须选择一个更具挑战性的方向。
对于,有两个关键的战略选择至关重要。首先,建立强大的基本功能,尽管在这方面的定位可能有所不同。其次,加深您在特定行业的努力,创造端到端的全链价值,深入了解行业需求,并实现与极端的所有联系。
去年10月,公开提出了“大型安装,大型模型和应用”的三位一体策略。该策略基于对AI未来高价值方向的判断。无论市场如何变化,即使诸如-R1之类的新技术都出现,我们仍然朝着这个战略方向稳固。这些新技术的开发不仅没有动摇的战略布局,而且还进一步验证了其高价值定位的必要性:
大型设备的支持使大型模型培训效率更高,推理成本更低;提高模型服务的效率,并确保培训和推理能力始终处于行业的领先水平;该模型与业务紧密融合,专注于关键领域,并突破了行业实施的瓶颈,实现了高价值的商业货币化。
(科学技术创新委员会的记者黄Xinyi日报)
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论