量子位|官方帐户
缝制的怪物游戏玩法没有思考,而是受欢迎的。
没有理由:它比单独使用R1,3.5和O1模型更好
让我们看一下VCR:
视频链接:
让我们看一下另一个评估结果:
在代码编辑基准测试中,缝线模型的效果小于1高和R1。
在此测试中,R1扮演建筑师,描述了如何解决代码问题。
作为程序员播放,并根据需要生成特定的代码编辑说明,以将更改应用于源文件。
此外,在实验过程中得出了一些有趣的结论:
从这个角度来看,R1确实是一个完美的匹配〜
该应用程序本身是100%免费的开源,并且已经赢得了3K星星(当然,必须由其自己使用API)。
经过测试后,网民得出结论,他们擅长编写清晰且结构良好的文本和代码,因此它可以将-r1的概念转换为精致的答复。
一位作者对此表示了想法:
AI代理和代理应用程序正在证明“数字世界第一”的范式转移,而智能系统正在成为积极的合作者,而不仅仅是被动工具。
混合种族
具体来说,这是通过Rust编写的LLM推理API。
它提供了一个统一的界面,该界面无缝连接R1的COT逻辑推理功能,并在单级中回复
开发人员可以通过此API同时调用两个模型的功能,还可以完全控制其API键和数据。
创建它的团队是命名的,具有安全研究和CTF背景(标志)背景的团队成员,并致力于使用AI来更有效地检查代码安全性。
该小组认为,R1的cot深入推理甚至达到了LLM内省认知()水平的水平,它可以自我纠正,考虑罕见/极端/特殊情况,并在自然语言中进行蒙特卡洛树搜索(MCT)。 )推理。
但是,R1缺乏代码生成,创造力和对话技巧,而3.5在这些方面表现良好,足以补充它。
为什么不结合两者?竭尽所能创造〜
在对话期间,在响应之前,系统将显示“
”这样的预填充文本。
结合这两个模型,它具有以下特征:
托管API是完全免费的,允许用户使用自己的键并集成了相同的流媒体API,从而提供了方便的功能,例如计算合并使用和价格。
该代码是开源的,用户可以自由托管,修改和重新分配。该小组表示,它在生产环境中已大规模使用,每天处理数百万个令牌,并且尚未失败,只要没有滥用。
还有一件事
您认为两个模型的缝合是极限吗?
不,不
一些网民已经开发了一个三缝的游戏玩法,结合了-R1和2.0 Flash的思维结果以回答问题。
在GPQA测试中也取得了良好的成果(对于中找不到的物理,化学和生物学的博士多项选择问题)。
地址:
[1]
[2]
[3]
[4]
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论