Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT

进不了网站?换个网络试试!

就在今天,AI多式联运家族迎来了第二位成员:一款名为Large的超大杯基础款。

这是一款基于 Large 2 构建的多模式模型,开放重量为 124B。它拥有顶级的图像理解能力——可以理解文档、图表和自然图像,同时保持Large 2领先的纯文本理解能力。

除了发布新模型外,AI还进一步升级了其免费聊天机器人le Chat,增加了图像生成、网页搜索和交互式画布功能,进行全面对标。

所有这些功能均作为免费测试版提供。

Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT插图

AI的每一次更新都会让整个AI社区兴奋不已。

有人感叹:“六个月前,开源和闭源模型之间的差距非常大。现在,最先进的人工智能正在迅速向任何想要使用它的人开放。”

Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT插图1

有多强?

接下来,让我们了解一下发布细节。

开源多模态大模型Large

Large 可在研究许可证 (MRL) 下用于研究和教育目的,并在商业许可证下用于商业目的的实验、测试和生产。

Large 之前是 2024 年夏季发布的 Large 2,以及 9 月发布的首款多模式车型 12-B。对于将多模态模型扩展到 1240 亿个参数的出发点,这位 AI CEO 是这样表示的:“我们越来越意识到,要创造最佳的 AI 体验,需要共同设计模型和产品界面。在训练时考虑这一点当谈到高影响力的前端应用程序时,这是一个很好的例子。”

Large 包含 1230 亿参数解码器和 10 亿参数视觉编码器,使其在处理文本和视觉数据方面表现出色。

大上下文窗口为128K,可以处理至少30张高分辨率图像或大约300页的书,相当于领先的GPT系列型号的能力。

在性能方面,该模型在包括 、 和 VQAv2 在内的多个基准测试中展现了最先进的性能,非常适合图表解读、文档分析和图像理解等任务。

Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT插图2

具体来说,在基线上,Large 的准确率达到 69.4%,优于所有其他模型。在 和 基准测试中,Large 的性能优于 GPT-4o 和 -1.5 Pro。

Large在MM-MT-Bench上也表现出了较强的竞争力,表现优于-3.5(新版本)、-1.5 Pro和GPT-4o(最新版本)。

Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT插图3

大在图像理解方面也表现良好。例如,上传账单并询问模型:“我买了咖啡和香肠,外加 18% 的小费。我应该付多少钱?”

Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT插图4

Large会非常有条理地给出总消费金额,先计算咖啡和香肠、2杯拿铁玛奇朵、1根香肠的费用,然后计算18%的小费,最后给出总量。

Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT插图5

大还可以准确地理解和分析图表。例如下面的训练损失曲线,询问暗模型什么时候开始出现问题。

Large的分析也很准确:“当达到10000步时,训练损失开始变得不稳定……随后,这种不稳定持续下去,在20附近出现了另一个大峰值,”

Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT插图6

下面的例子中,上传一张图片,询问Large哪些公司使用了AI模型?

Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT插图7

大还可以根据图片提供的信息给出准确的结果。解答过程如下。

Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT插图8

除了Large之外,AI最先进的文本模型Large也得到了更新。该模型在 API 上以 -large- 形式提供,在 API 上以 Large 24.11 形式提供。

Large 24.11将首先在Cloud和Azure上提供,预计将在一周内提供。

大标杆升级

le Chat已经强大到可怕

Large的发布也将le Chat的功能提升到了一个新的水平。

le Chat 现在可以处理大型、复杂的 PDF 文档和图像,例如理论文档的所有内容 - 图形、表格、图表、文本、公式、方程。

以下示例展示了 、 和 Rosen 于 1935 年撰写的著名量子纠缠论文的信息提取、摘要和语义理解。

Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT插图9

视频链接:#rd

此外,乐聊还推出了两项新功能:

第一个是实时网络搜索。 AI表示,这是关于生产力的升级。 le Chat 的大多数用户是学生和专业人士,这些用户非常看重它在学习、研究和工作中的作用。

这是一位营销专业人士使用 le Chat 来评估医疗保健人工智能市场:

Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT插图10

视频链接:#rd

然后是新界面。当用户需要暂时离开对话进行构思时,会在聊天窗口中弹出,然后用户可以与LLM协作完成共享输出。

从现在开始,我们与聊天机器人的互动不再局限于双向对话。借助LLM强大的推理能力,可以用来创建文档、演示文稿、代码、模型等,亮点是“就地修改内容”,无需重新生成回复、版本控制草稿和预览设计。

例如,在下面的演示中,是产品团队创建产品指标仪表板的反应式模型以准备发布的视频。

Mistral AI 多模态家族新成员 Pixtral Large 发布,对标 ChatGPT插图11

视频链接:#rd

AI与SD作者团队成立的Black Labs也达成合作,因此乐聊拥有高质量的图像生成能力。

最后,如果您想立即体验AI最新的搜索、PDF上传、编码、图像生成等功能,请访问:

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论