谷歌推出新一代AI大模型Gemini 2.0 Flash,支持实时对话、图像生成与代码运行

进不了网站?换个网络试试!

连续几天的“轰炸”,已经让人疲惫不堪。

对此,谷歌周三推出了新一代至强AI大型号2.0 Flash。

网友们可以先来体验一下。

实时对话模型所看到的内容感觉就像科幻小说一样。

通过共享屏幕和实时讨论论文,这个研究助手非常强大。

让AI在对话过程中自然生成图像。

谷歌推出新一代AI大模型Gemini 2.0 Flash,支持实时对话、图像生成与代码运行插图

现在,一句提示词就可以一步生成一个包含步骤说明和图片的菜谱博客。

据谷歌介绍,除了生成文本之外,它还可以直接生成图像和语音。

不仅如此,Flash 2.0还可以调用第三方应用程序和服务,例如使用搜索、运行代码等功能。

从今天开始,开发者可以通过以下方式试用Flash 2.0的测试版:

不过,生成图像和声音的功能目前仅对“早期合作伙伴”开放,要到明年1月才会向所有人开放。谷歌表示,在未来几个月内,它将把2.0 Flash的各个版本集成到多个产品中,包括:

主模型2.0

今天发布的2.0 Flash实验版是2.0系列的第一个型号,也是目前的主力型号。

它具有快速的响应速度(低延迟)和强大的性能,代表了的顶尖技术水平。

Flash 2.0除了速度比前身快一倍并支持图像、视频和音频等多模态输入外,现在还支持多模态输出,例如本机生成的图像和文本混合以及可控的多语言文本转换。语音 (TTS) 音频。

它还可以原生调用搜索、代码执行和第三方用户定义函数等工具。

谷歌推出新一代AI大模型Gemini 2.0 Flash,支持实时对话、图像生成与代码运行插图1

下图是不同版本在各种测试中的性能对比。

总体而言,新模型在编程、数学和多模态处理方面有显着改进,尤其是在代码生成方面。

有趣的是,在长文本理解(MRCR)方面,2.0 Flash(69.2%)的表现比 1.5 Pro(82.6%)差。这是少数没有改善的指标之一。

谷歌推出新一代AI大模型Gemini 2.0 Flash,支持实时对话、图像生成与代码运行插图2

图表展示了不同版本在各种测试中的性能对比。

Flash 2.0正式版将于一月份推出。但与此同时,谷歌正在发布一个API——Live API(多模式实时API)来帮助开发者构建具有实时音频和视频流功能的应用程序。

网友们已经乐在其中了。

谷歌推出新一代AI大模型Gemini 2.0 Flash,支持实时对话、图像生成与代码运行插图3

它可以帮助您绘制下一个棋子的位置。来自X网友@

使用 Live API,开发人员可以创建实时、多模式应用程序,从摄像头或屏幕接收音频和视频输入。 API支持集成各种工具来完成任务,并且可以处理自然的对话模式。

例如,谈话中断。这与 API 非常相似。

在对话过程中自然生成图像,就像人类在聊天时随机绘制图表一样自然

谷歌推出新一代AI大模型Gemini 2.0 Flash,支持实时对话、图像生成与代码运行插图4

对图像的后续编辑

谷歌推出新一代AI大模型Gemini 2.0 Flash,支持实时对话、图像生成与代码运行插图5

处理实时音频输入,同时执行数据可视化等复杂任务

谷歌推出新一代AI大模型Gemini 2.0 Flash,支持实时对话、图像生成与代码运行插图6

Astra:通用助理的黎明

今年5月,谷歌发布了通用AI助手研究原型Astra,这是一个多模态AI代理项目,旨在为用户提供一个能够理解并响应复杂动态现实世界的“AI助手”。

此次,谷歌对搭载2.0的最新版Astra进行了一系列改进:

对话更流畅:Astra 现在能够使用多种混合语言进行交流,可以更准确地理解口音和不熟悉的单词。

新工具的使用:在2.0中,Astra可以使用搜索、 Lens和 Maps,使其成为您日常生活中更强大的助手。

更强大的内存:增强了Astra的内存功能并确保您可以控制其内存。它现在可以进行长达 10 分钟的对话,并记住您过去与其进行的更多对话,为您提供更加个性化的服务。

更低的延迟:借助新的流媒体功能和本机音频理解技术,代理可以以接近人类对话的延迟理解语言。

他们正在努力将这些功能引入谷歌产品,例如应用程序和其他形式的产品,例如眼镜。与此同时,他们还开始在原型眼镜上测试Astra。

在官方的演示视频中,老外使用安装了最新测试版Astra的Pixel手机进行测试。

收到包含公寓信息的电子邮件后,它可以告诉您公寓门的密码并记住它。

只要用相机拍下衣服上的标签和洗衣机上复杂的按钮,它就会告诉你衣服是否可以机洗、漂白、烘干,以及如何使用洗衣机。

你还可以把你朋友读过的书发给它,让它分析你朋友的阅读品味,推荐相关书籍。

谷歌推出新一代AI大模型Gemini 2.0 Flash,支持实时对话、图像生成与代码运行插图7

我遇到一辆公共汽车,就问是否可以到唐人街附近。 Astra不仅可以搜索公交车路线,还可以解答沿途著名地标。

谷歌推出新一代AI大模型Gemini 2.0 Flash,支持实时对话、图像生成与代码运行插图8

另外,我还戴上了原型眼镜来测试Astra,效果相当炫酷。

只需一个问题,它就能预测天气预报、告诉你是否可以骑自行车进公园、搜索沿途超市等等。

:浏览器版本“贾维斯”

它是基于2.0构建的早期研究原型。它使用浏览器插件来理解屏幕上的所有内容 - 无论是文本、代码、图像还是表单。

其厉害之处在于,在基准测试中,作为独立代理设置,完成网页任务的准确率达到了83.5%,这在目前来说是一个相当不错的成绩。

虽然现在可能仍然有点慢并且准​​确率不是 100%,但该技术正在迅速改进。

为了确保安全,谷歌采取了许多保护措施。

例如,它只能在您当前打开的网页选项卡中进行操作。当你想做一些重要的事情(比如网上购物)时,你必须先询问你是否同意。这就像有一个助手来帮助你处理事情,但你仍然可以做出重要的决定。

Jules:经验丰富的编程助理

Jules 是一位精通编程的智能助手,直接集成到工作流程中。假设你有一个编程问题需要解决,它理解问题,制定解决方案,然后在你的指导和监督下编写代码。

这就好像你有一个经验丰富的编程伙伴,可以帮助你分析问题、规划解决方案、编写代码,但最终的决定权还是在你手里。您可以随时检查它的工作情况并确保一切都如您所愿。

游戏等领域代理

谷歌一直喜欢用游戏来锻炼AI能力,就像前几天推出的精灵2一样。只要给它一张图片,它就可以创建一个可玩的3D世界。

现在,他们在2.0的基础上开发了游戏代理。

特别有趣。它可以了解你在玩什么游戏,了解游戏屏幕上正在发生什么,然后与你实时聊天,给你如何玩的建议。就像有一位资深玩家朋友在你身边指导你一样。

谷歌推出新一代AI大模型Gemini 2.0 Flash,支持实时对话、图像生成与代码运行插图9

他们还与此类大型游戏公司合作,在《部落冲突》等策略游戏和《卡通卡通农场》等模拟经营游戏中测试AI。 AI需要了解不同类型游戏的规则和挑战,这并不是一件容易的事。

更神奇的是,这款代理还可​​以利用搜索来帮助你找到网络游戏攻略和技巧。就像一个玩伴,了解游戏,知道去哪里寻找答案。

除了探索虚拟世界中智能体的能力外,谷歌还尝试将2.0的空间推理能力应用到机器人上,帮助智能体在现实世界中提供帮助,但目前还处于早期阶段。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论