谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议

进不了网站?换个网络试试!

经过6000+网友的匿名投票,他不仅数学成绩追平了学霸O1,还在其他五个项目上获得了第一名。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图

新模型被称为(Exp 1114)。结果一公布,连CEO皮查伊都亲自赶到站台。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图1

Arena官方也第一时间公布了这个好消息,并向谷歌表示祝贺:

祝贺您达到这一非凡的里程碑!

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图2

这太尴尬了!承诺的谷歌是否遇到了瓶颈?没想到他的反手竟然是王炸。

恐怕,或许,只有立即推出满血版O1才能与他一战吧?

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图3

目前,新模型可以在 AI上体验,官方计划未来提供API。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图4

网友们也纷纷猜测这是否就是传说中的2——

获得7项第一,数学与O1不相上下

一夜之间,竞技场Imsys排名再次刷新:

从整体榜单来看,谷歌新模型(Exp 1114)的得分提升了40+,挤掉了此前一直霸占榜单的模型(包括o1-、GPT-4o)。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图5

而如果正面1v1遭遇敌人,New Look似乎有一半甚至更多的获胜概率。

整体胜率热图显示,(Exp 1114)对4o的胜率是50%,对o1的胜率是56%,对-3.5的胜率是62%。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图6

同时,(Exp 1114)个人项目也非常出色,一举夺得6个第一名,包括:

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图7

最大的亮点是(Exp 1114)在数学能力上与o1模型不相上下。

要知道,按照官方的说法,o1无需特殊训练就可以直接获得数学奥林匹克金牌,甚至可以在博士级科学问答环节超越人类专家。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图8

但遗憾的是,对于编写代码这一重要功能(Exp 1114),虽然相比 之前的版本有所改进,但依然没能进入前三。 (o1-mini/仍然领先)

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图9

另外,在风格的掌控下,-Exp-1114也无缘前三,甚至还不如自家的-1.5-pro。 (排在o1、4o-之后)

解释一下,风格控制(Style)是今年江湖推出的新功能,旨在确保分数反映模型真正解决问题的能力,而不是使用漂亮的格式并增加答案的长度。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图10

然而,也有意想不到的惊喜。这次-Exp-1114在视觉能力上获得了第一名,超越了GPT-4o。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图11

总体来说,大家对谷歌这次的反超感到非常意外。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图12

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图13

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图14

目前,-Exp-1114可以在 AI上体验,官方计划未来提供API。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图15

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图16

这不,不少网友已经开始测试了,但似乎争议颇多——

网友们反应不一

首先总结一下,通过网友测试,目前已知有关Exp-1114的信息如下:

其中32k上下文被大家诟病。有人直言,与200万上下文窗口的1.5相比,这里不升反降!

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图17

或许是感受到了大家的不满, AI 负责人赶紧出面平息事情:快更新了!快点更新吧!

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图18

安抚了大家的情绪后,大家终于说出了自己的看法。

通过其中一个家伙的观察,-Exp-1114这次也使用了思维链,在回答的时候能够像人类一样一步步思考。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图19

而且,他数学真的很好?

-Exp-1114 正确回答了 2024 年美国数学奥林匹克预选赛 II 的第 1-8 题。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图20

即使在相对薄弱的编码领域,也有人第一次尝试就成功了。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图21

然而,翻盘总是不可避免的。

有人在基准测试中问了一道物理题,结果是Exp-1114虽然有思维链的加持,但依然回答错误。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图22

即使是比较数字和计算草莓中“r”的陈词滥调仍然失败了。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图23

更搞笑的是,有人问-Exp-1114“你叫什么名字?”

结果得到了答复(doge)。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图24

事实上,大家一直在猜测Exp-1114是否会是计划更新的传奇2。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图25

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图26

但根据实测,相当一部分网友站出来表示否认。

毕竟看起来连老版本1.5 Pro存在的问题都解决不了。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图27

甚至有人声称,这是谷歌推迟发布更大模型(即2)的策略,先做一个残差版本供大家玩,这样他们就不会急于更新。

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一,引发网友热议插图28

结合CEO皮柴放烟雾弹的做法,似乎有些道理(doge)!

本站候鸟号已成立2年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论