聪明的东西
由Chen Junda编译
编辑
希蓬十月在2月13日报道说,在春季音乐节期间,它成为全球技术行业的顶级明星,许多人从媒体头条新闻到巨型财务报告。 Lex是AI世界上最受欢迎的播客之一,还发布了五个小时的深度播客,花了很多时间讨论其对全球AI发展趋势及其技术优势的影响。
该计划的客人是半导体行业咨询公司的创始人Dylan Patel,也是艾伦人工智能研究所的研究科学家。
加强学习的突破称为“时刻”。为了回应窃的指控,特别强调-R1不太可能窃取O1的推理链数据,而是允许该模型通过基于加强学习的“试验 - 纠正”学习模型自然地以推理能力出现。 。
两位客人还详细介绍了技术优势。与最初的注意机制相比,创新的MLA机制使记忆使用量减少了80%-90%。通过在MOE体系结构的路由机制方面的创新,使用专家模型的效率得到了提高,并提高了成本和效率的提高。
他们三个人都参与了对话,与开源模型非常同意,称其为“真正的开源”,并赞扬其详细的技术报告和良好的可操作性,这是开源行业的积极力量。本地运行开源模型也可以更好地保护用户隐私数据。
在计算资源方面,帕特尔认为,它在世界上排名榜首,仅次于诸如Meta等少数公司,并且可能拥有约50,000 GPU。尽管这一数字是一定的差距,而国际巨头的储备只能达到100,000卡路里,但巨人仍然需要将这种计算能力分配给其他企业。
由于完整的计划太长了,特别汇编了五个主要观点,值得关注几位客人在面试中以供您参考:
1。贡献:促进AI知识普及的最开放的尖端模型之一
1。 -R1在启动后立即是开源的,并且在不限制商业和特定用例的情况下专门采用了松动的MIT许可证。这也意味着其他开发人员可以使用此模型输出合成数据并训练高质量的模型。
2。尽管美洲驼(Llama)也打开了重量,并带有技术报告,但技术报告更具运营性,并披露了更多的培训细节,包括在开发过程中遇到的困难。目前可能是最开放的。尖端模型之一。
3。团队促进了人工智能知识的普及。他们的论文详细披露了技术细节,并分享了所有失败的经验,为世界各地的其他团队提供了实际参考,以改善自己的培训技术。
4。只有少数才能可以通过优化芯片的基本规范来实现有效的培训,并且具有这样的才能。在全球范围内,这种才能仅存在于美国的前沿实验室和此类公司中。
5。模型本身不会窃取数据,托管方法可能会窃取数据。开源意味着用户不必连接到即可使用AI服务并完全控制自己的数据。
6。是麝香和Huang 样的人物。他自己掌握一切,深入研究AI技术。他坚信AGI的愿景(通用人工智能),并希望使中国能够在AI生态系统的建设中发挥领导作用。它是背后的“梦想家”。
7。 -R1引起了海外的关注,本质上是因为它提出了模型培训的新方向。人工智能技术发展出惊人的发展,将来会出现更多类似的突破。尽管许多人都在关注代理人,但AI的未来远不止于此。
8。如果模型运行良好,则应尽快将其发布。由于AI的迅速发展,企业最好缩短模型培训的完成与正式版本之间的时间差距。如果运行良好,请尽快发布,这可以提高用户对产品性能改善的看法。在这方面做得更好。
2。模型特征:依靠自学,我们可以轻松展示我们的思维链
1。-R1的亮点之一是它将显示一个完整的思维链,模型本身的思维过程可以提供独特的美学。 O1-Pro在许多问题上仍然表现良好。 O3-Mini-high聪明,快速但平庸,缺乏新颖性和深度。
2。 -V3倾向于快速生成答案,通常以格式化的方式显示,类似于大多数AI模型。 -R1将首先提出大量的思想链过程,然后更改音调并给出最终答案,答案的形式类似于V3。
3。服务成本很大,因为前者的利润率很高,毛利润额超过75%。实际上,它的运作损失了金钱,目前无法大规模提供服务。
4。-R1的推理能力不太可能,因为它们偷走了O1的推理链数据。即使是据称,该模型也被蒸馏出来,它在效率方面取得了惊人的成就。
5。 -v3和-r1均使用-v3 base作为基本模型。在训练前阶段,该基本模型通过在上海文本中预测下一个单词来了解语言的共同规则。它的主要功能是编写文本续集,但它并不像主流聊天机器人那样容易使用。
6。-V3采用的后培训过程构建了指令模型,聊天模型,所谓的“对齐模型”和“助理模型”,通过基于人类反馈(RLHF)的指令调整和强化学习等方法。 -v3具有出色的性能,可与GPT-4,Llama 405B等模型相媲美。
7。-R1 -Zero不使用手动推理数据作为参考,而是使用强化学习来允许模型在带有标准答案的大量可验证问题上训练自身,并根据答案的正确性给出模型。奖励,从而使模型能够以推理能力自发出现。
8。-R1完整版的推理能力是预先训练的语言模型和强化学习的组合的产物。在推理训练之后,进行了基于人类反馈的强化学习。
3。技术突破:MOE架构,降低成本,基础优化
1。创新的多头注意机制在长期处理过程中具有很大的优势。与最初的注意机制相比,这种创新可以将注意机制的记忆使用降低约80%-90%。
2。显着改善了专家混合模型(MOE)的路由机制,并引入附加参数。通过不断更新此参数,少量累积到许多人中,最终,该模型可以更均匀地使用所有专家。
3。为了最大程度地提高性能,在CUDA层下方进行了超高的编程优化,哪些核心负责模型计算以及哪些内核负责通信,并在两者之间动态切换。
4。通常的MOE模型仅包含8-16个专家模型,一次一次激活两个模型,但它采用了极高的稀疏因子,并且在256个专家模型中,有8个被激活,从而减少了激活参数的规模,从而使其成为费用较低。
4。训练灵感:在小规模上进行反复试验,但也有勇气全力以赴
1。“ bit子的课程”:在深度学习领域,这些可扩展的学习和搜索方法最终将获胜。研究人员应减少人为的先验知识的影响,探索有效使用深度学习系统,并解决宏伟的问题。简单的方法。在不使用人造数据的情况下,有一个强大的模型接受了增强学习的培训,该模型有效地证明了上述观点的正确性。 -R1在推理能力中取得的进展也源于增强学习。
2。代码库可能会令人困惑,并用于测试各种新想法。初始代码相对粗糙,但是用于训练-V3和-R1的代码质量相对较高。
3。通过大量的小规模失败,经验逐渐积累,专家混合模型的有效性,MLA方案的可行性等得到了证明,并最终发现了超参数的成功组合。此过程需要持续的反复试验。
4。当试验和错误达到某个阶段时,开发人员还需要发挥其Yolo (即您只活一次,一次生活,大胆地做),并在一条路上赌注。几乎所有资源都在早期押注,就像在2022年使用公司的100%资源训练GPT-4一样,这是一个非常大胆的举动。
5。计算资源:集群大小是世界领导者,与幻想共享基础架构
1。在2021年,魔术广场量化声称其具有Wanka A100群集,尽管这些模型并非全部用于大型语言模型培训。后来的机构后,他们继续使用定量购买更多的GPU和共享基础设施。该论文提到V3型号在训练时使用了2,000 h800 GPU,但据信它们实际上的GPU数量可能接近50,000,但分布在多个领域。
2。元还训练开源模型。他们的训练集群约有60,000-H100同等的GPU。骆驼3在培训期间使用16,000 H100 GPU。梅塔(Meta)去年透露,它总共购买了超过40万GPU,其中仅购买了很多。一小部分用于模型培训。从这个角度来看,群集规模位居世界榜首,仅次于Meta等少数公司。
3。无论应用超级AI,都需要大量的计算能力,并且计算资源差距的累积效应对美国至关重要。如果世界将来只有2%-3%的经济增长,那么维持筹码等高科技产品的出口将是愚蠢的,并且将失去很多经济利益。但是,在超级AI的到来并产生重大影响的背景下,美国单方面维持技术差距是有利可图的。随着AI对计算能力的需求呈指数增长,即使中国公司也会在大规模普及AI的过程中遇到困难。
6. AI冷战可能开始
1。AGI可能会在2030年以后实现,并且在未来几年将继续看到快速而令人惊讶的进展。 -R1是此过程中的最新发展之一。
2。AGI竞赛将不会成为“赢家全力以赴”的情况。目前,AI领域的主要参与者仍在卡片桌上。 仍然是AGI竞赛的领导者,该竞争具有更多的公众舆论优势。微软在AI中实现了它。利润。
3。出现使中国和美国都更直接地感受到了AGI的影响。时刻可能是冷战的开始,但这不是一个错误,而是某些因素综合效应的结果。
视频链接:
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论