概括:
与月之暗面、智浦AI、百川智能等获得各大厂商投资的AI初创公司不同,与科技巨头并无直接关系。但其自身的算力储备却与各大厂商相当。
凤凰科技出品
作者|丹尼
编辑|董玉清
热议的东方动力
神秘的东方力量再次震惊世界,这次是用大型模型。
12月26日,国内私募机构魔方量化旗下深搜(Deep )发布了新一代开源大模型-v3。 Deep 在技术报告中提到,作为参数量高达 671B 的大型语言模型,-V3 在预训练阶段仅使用了 2048 个 GPU 进行了不到 2 个月的训练,总计 266.4 万 GPU 小时,仅花费557.6万美元(约合人民币4070.1万元)。
这意味着-V3的训练成本约为GPT-4o的二十分之一。 CEO Dario 最近透露,像 GPT-4o 这样的模型的训练成本约为 1 亿美元,而目前正在开发的大型 AI 模型的训练成本可能高达 10 亿美元。未来三年,训练大型AI模型的成本将升至100亿美元甚至1000亿美元。
性能方面,根据-V3技术报告显示,基础模型-V3 Base在英语、代码、数学、中文以及多语言任务上表现都非常出色,甚至远远超过了一些任务如CMath、MMMLU-non-其他开源大型模型。即使与两个领先的闭源模型GPT-4o和3.5相比,-V3也不逊色,并且在MATH 500和AIME 2024中具有明显优势。
广发证券分析,-V3算力成本降低的原因有两点:一是-V3参考多种训练方法进行优化,避免了业界大型AI模型训练过程中出现的各种问题。问题类型;其次,-V3采用的MLA架构可以减少推理过程中的kv缓存开销,并且其特定方向训练方法的选择也降低了其算力成本。
很少有业内外人知道的是,它也是大机型价格战的最早发起者,被誉为“AI行业的拼多多”。 2024年5月,V2开源模型发布,提供了前所未有的性价比:推理成本降至每百万代币仅1元,约为70B的七分之一,GPT-4 Turbo的70% 。一部分。
-V3的定价方面,API定价为每百万输入0.5元(缓存命中)/2元(缓存未命中),输出为每百万8元,与byte-pro-256k相同定价投入为每百万辆5元。 ,产量水平相当于9元/百万,在国产车型中性价比较高。
“今天,中国一家人工智能公司轻松发布了前沿的大语言模型。”知名人工智能科学家、特斯拉前人工智能和自动驾驶视觉总监、早期成员安德烈·卡帕西( )评价——V3“如果这个模型仍然通过各种评估,那将是资源下研究和工程能力的一次令人印象深刻的展示——条件有限”,表演时说道。
“我一直在关注,去年他们拥有最好的开源编码模型之一。优越的开源模型给尖端大型语言模型商业公司带来了巨大压力,迫使他们加快速度。”英伟达高级科学家吉姆·范(Jim Fan)认为,在竞争激烈的人工智能领域,生存本能是突破的主要驱动力。
千亿量化私募的AI创业
在国内众多大型模型创业公司中,路线最为不同。其中文名称为“深探”,是知名私募巨头欢放量化创立的子公司。
2023年4月,Magic 宣布成立新组织,集中资源和力量探索AGI本质,一年多时间取得快速进展。当时,焕芳表示,多年来,公司坚持将大部分收入投入人工智能领域,打造领先的AI硬件基础设施,进行大规模研究,探索人类未知的奥秘。
与月之暗面、智浦AI、百川智能等获得各大厂商投资的AI初创公司不同,与科技巨头并无直接关系。但其自身的算力储备却与各大厂商相当。
有云计算专家提出,1万颗 A100芯片是大规模AI模型的算力门槛。在中国云厂商受到GPU芯片短缺的限制时,欢放早早押注进军大模型赛道。据介绍,除了商汤、百度、腾讯、字节、阿里巴巴等科技巨头外,欢放还拥有超过10000块GPU。
欢放量化创始人梁文峰曾在接受媒体采访时表示,欢放算力的储备并不是突然的。 2019年,欢放投资2亿元自主研发深度学习训练平台“萤火一号”,配备1100颗GPU。到2021年,《萤火2》的投资已增至10亿元,配备约1万张 A100显卡。一年后,公测版发布,全球掀起了新一轮人工智能热潮。
事实上,在量化投资领域,欢芳也是一位特立独行的人。欢放量化曾是国内第一家私募规模突破千亿的大型量化公司。准确来说,也是迄今为止行业内唯一一家规模突破千亿大关的量化私募公司。
“我们做大模型,和量化、金融没有直接关系。”梁文峰在被媒体问及为何量化基金选择进入大模型行业时解释道。 “当时我们尝试了很多场景,最终进入了一个足够复杂的金融环境。 ,而通用人工智能可能是下一个最难的事情之一,所以对我们来说,这是一个如何做的问题,而不是为什么的问题。”
公开资料显示,梁文峰是一位20世纪80年代出生的极端技术理想主义者。他从魔方时代就开始研究幕后技术。在这个时代,他依然延续着低调的作风。像所有研究人员一样,他“阅读论文、编写……代码、参与小组讨论”。值得一提的是,这家公司还对外招聘文科人才,职位定位为“数据达人”,提供人类历史、文化、科学等相关知识来源,与数据工程师共同构建。完整的世界语言知识库。
“我们相信,几乎所有的创新都是从大胆的尝试和点点滴滴的积累中诞生的。我们会充分、持续地投入,不做温和的事情,用最长远的眼光来回答最大的问题。”梁文峰曾经说过。
梁文峰在接受媒体《暗流》采访时表示,降价一方面是因为在探索下一代车型结构的同时,成本先降了下来。另一方面,他也觉得API和AI都应该具有包容性。每个人都买得起的东西。
“过去很多年,中国企业已经习惯了别人进行技术创新,我们用它们来将应用变现,但这并不是理所当然的事情。在这一波浪潮中,我们的出发点不是顺势而为。”赚钱,而是要更上一个台阶,推动整个生态系统的发展。”梁文峰说。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论