DeepSeek-V3在GitHub上超越OpenAI，成为开源AI世界的新里程碑

进不了网站？换个网络试试！

机器心脏社论部

开源AI世界中的一个里程碑活动！

我们目睹了历史：项目在世界上最大的代码托管平台上有更多的明星。

截至本周五下午2:00，最受欢迎的项目V3 Big Model Star已达到77,700，超过了同一平台上最受欢迎的项目。

该项目中的恒星数量仍以肉眼可见的速度增长。

去年12月26日，AI开设了其最新的混合专家（MOE）大语言Model-V3的来源，该型号立即成为通用语言模型的性能基准，并由全球AI社区进行了热门讨论。

-v3模型引入了动态注意机制（），以实时调整注意力重量来优化文本生成质量。它的MOE架构总共包含6710亿个参数，但每个令牌仅激活370亿个参数，这大大降低了计算成本，训练成本仅为类似封闭源模型的1/20。

根据技术报告，-V3的训练前过程仅为26.64亿H800 GPU小时，再加上背景扩展和培训后培训总计2.78.8 H800 GPU小时（培训成本为557.6万美元）。相比之下，骆驼3的培训预算约为3930万h100 gpu小时。

来源：

然后在1月23日，提出了基于V3的增强学习（）驱动的重建训练范式，提出了-R1，完全改变了开源AI世界。

R1的性能完全针对O1进行了基准测试，并且与V3相比，性能有了显着提高。它的论文指出，纯净的加强学习可以为LLM提供强大的推理能力，而无需大量的监督和微调，这震惊了AI行业。

从技术的角度来看，它证明了国内科学研究团队的创新能力，并且经过法律，它为开发大型模型开发了一个新的范式，大大降低了AI对计算能力的依赖，并在自我发展中平衡了数据优势方式。

R1还支持推理能力向较小型号的迁移，为边缘计算和即时应用开辟了许多可能性。

由于自GPT -3以来，它的基本AI模型尚未开源，因此当前流行的开源项目包括 - IE示例代码和用于使用API完成常见任务的指南；而且，这是一个常见的语音识别模型，于2022年9月开放。

此外，属于开源型号的美洲驼系列中最高的恒星达到了57,500，阿里巴巴云的Qwen2.5具有14,900颗恒星和7,800星。

V3和R1的发布似乎已经为全球大型模型社区提供了令人心动的注入。在AI研究领域，已经出现了R1核心增强学习方法GRPO的进一步研究。

开源策略还为应用程序创造了很多机会。尽管官方的应用程序报告受到高频网络攻击的约束，但仅在中国，阿里巴巴云，华为云，腾讯云，腾讯云，百度智能云，360个数字安全，云轴技术和其他平台都宣布了大型型号的推出，这很方便。由各种开发人员召集。

海外，，亚马逊和 Cloud 也宣布访问R1。

一系列模型当前被认为是最先进的大型语言模型之一。通过促进开源技术，我们可能会目睹生成AI的更快发展。

本站候鸟号已成立3年，主要围绕财经资讯类，分享日常的保险、基金、期货、理财、股票等资讯，帮助您成为一个优秀的财经爱好者。本站温馨提示：股市有风险，入市需谨慎。