据了解,Step-1o系列是公司研发的端到端文本、视觉、语音三模态生成和理解集成模型。一个月前,发布了1o家族的第一个模型Step-1o Audio,这也是国内第一个千亿参数的大规模端到端语音模型。
在Step-1o多模态理解大模型上线的同时,Step-1o Audio语音模型能力也在升级。与Step-1V系列多模态理解模型相比,Step-1o在视觉识别、感知、指令跟随、推理等方面都有所改进。升级后的Step-1o Audio拥有更高的情商、更自然的声音,支持多语言和方言理解,并实现更低的延迟。
在LMSYS Org最新发布的大型模型舞台排行榜中,Step-1o在视觉领域位列中国大型模型第一名,超越了所有国内大型模型公司。
同时在国内大型模型评测平台“思南”多模态模型评测实时排行榜中排名第一。
在实际测试中,Step-1o能够识别复古插画中的“个人交通”、“未来城市”等关键词,并翻译其中的意大利小字。
Step-1o 上传一张小猫挤在一起的照片,识别出动物的数量和种类,并使其能够与它们互动。
下图中,模型可以通过表格、标识等元素识别对应的软件工具,并理解其中的黑色幽默表达方式。它将软件分为五个级别,并介绍了每个级别的软件。
Step-1o还可以识别出,图中是三部通过铰链连接的手机,并不是真正的折叠屏手机。
《科创板报》获悉,Step系列将在春节前继续推出更多通用大型号。
(科创板报记者 黄欣怡)
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论