DeepSeek-V3在GitHub上超越OpenAI,成为开源AI世界的新里程碑

进不了网站?换个网络试试!

机器心脏社论部

开源AI世界中的一个里程碑活动!

我们目睹了历史:项目在世界上最大的代码托管平台上有更多的明星。

截至本周五下午2:00,最受欢迎的项目V3 Big Model Star已达到77,700,超过了同一平台上最受欢迎的项目。

DeepSeek-V3在GitHub上超越OpenAI,成为开源AI世界的新里程碑插图

该项目中的恒星数量仍以肉眼可见的速度增长。

去年12月26日,AI开设了其最新的混合专家(MOE)大语言Model-V3的来源,该型号立即成为通用语言模型的性能基准,并由全球AI社区进行了热门讨论。

-v3模型引入了动态注意机制(),以实时调整注意力重量来优化文本生成质量。它的MOE架构总共包含6710亿个参数,但每个令牌仅激活370亿个参数,这大大降低了计算成本,训练成本仅为类似封闭源模型的1/20。

根据技术报告,-V3的训练前过程仅为26.64亿H800 GPU小时,再加上背景扩展和培训后培训总计2.78.8 H800 GPU小时(培训成本为557.6万美元)。相比之下,骆驼3的培训预算约为3930万h100 gpu小时。

DeepSeek-V3在GitHub上超越OpenAI,成为开源AI世界的新里程碑插图1

来源:

然后在1月23日,提出了基于V3的增强学习()驱动的重建训练范式,提出了-R1,完全改变了开源AI世界。

R1的性能完全针对O1进行了基准测试,并且与V3相比,性能有了显着提高。它的论文指出,纯净的加强学习可以为LLM提供强大的推理能力,而无需大量的监督和微调,这震惊了AI行业。

从技术的角度来看,它证明了国内科学研究团队的创新能力,并且经过法律,它为开发大型模型开发了一个新的范式,大大降低了AI对计算能力的依赖,并在自我发展中平衡了数据优势方式。

R1还支持推理能力向较小型号的迁移,为边缘计算和即时应用开辟了许多可能性。

DeepSeek-V3在GitHub上超越OpenAI,成为开源AI世界的新里程碑插图2

由于自GPT -3以来,它的基本AI模型尚未开源,因此当前流行的开源项目包括 - IE示例代码和用于使用API​​完成常见任务的指南;而且,这是一个常见的语音识别模型,于2022年9月开放。

此外,属于开源型号的美洲驼系列中最高的恒星达到了57,500,阿里巴巴云的Qwen2.5具有14,900颗恒星和7,800星。

DeepSeek-V3在GitHub上超越OpenAI,成为开源AI世界的新里程碑插图3

V3和R1的发布似乎已经为全球大型模型社区提供了令人心动的注入。在AI研究领域,已经出现了R1核心增强学习方法GRPO的进一步研究。

开源策略还为应用程序创造了很多机会。尽管官方的应用程序报告受到高频网络攻击的约束,但仅在中国,阿里巴巴云,华为云,腾讯云,腾讯云,百度智能云,360个数字安全,云轴技术和其他平台都宣布了大型型号的推出,这很方便。由各种开发人员召集。

海外,,亚马逊和 Cloud 也宣布访问R1。

一系列模型当前被认为是最先进的大型语言模型之一。通过促进开源技术,我们可能会目睹生成AI的更快发展。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论