首页 » 财经投稿 » 正文

阶跃星辰发布Step-1o Vision多模态理解大模型，视觉识别与推理能力全面提升

2025-01-21 31

进不了网站？换个网络试试！

据了解，Step-1o系列是公司研发的端到端文本、视觉、语音三模态生成和理解集成模型。一个月前，发布了1o家族的第一个模型Step-1o Audio，这也是国内第一个千亿参数的大规模端到端语音模型。

在Step-1o多模态理解大模型上线的同时，Step-1o Audio语音模型能力也在升级。与Step-1V系列多模态理解模型相比，Step-1o在视觉识别、感知、指令跟随、推理等方面都有所改进。升级后的Step-1o Audio拥有更高的情商、更自然的声音，支持多语言和方言理解，并实现更低的延迟。

在LMSYS Org最新发布的大型模型舞台排行榜中，Step-1o在视觉领域位列中国大型模型第一名，超越了所有国内大型模型公司。

同时在国内大型模型评测平台“思南”多模态模型评测实时排行榜中排名第一。

在实际测试中，Step-1o能够识别复古插画中的“个人交通”、“未来城市”等关键词，并翻译其中的意大利小字。

Step-1o 上传一张小猫挤在一起的照片，识别出动物的数量和种类，并使其能够与它们互动。

下图中，模型可以通过表格、标识等元素识别对应的软件工具，并理解其中的黑色幽默表达方式。它将软件分为五个级别，并介绍了每个级别的软件。

Step-1o还可以识别出，图中是三部通过铰链连接的手机，并不是真正的折叠屏手机。

《科创板报》获悉，Step系列将在春节前继续推出更多通用大型号。

（科创板报记者黄欣怡）

本站候鸟号已成立3年，主要围绕财经资讯类，分享日常的保险、基金、期货、理财、股票等资讯，帮助您成为一个优秀的财经爱好者。本站温馨提示：股市有风险，入市需谨慎。

标签：端到端模型 · 阶跃星辰

暂无评论

发表评论取消回复

要发表评论，您必须先登录。