百川智能发布Baichuan-Omni-1.5开源全模态模型,支持文本、图像、音频和视频全模态理解

进不了网站?换个网络试试!

官方声称 -Omni-1.5 在视觉、语音和多模态流处理方面优于 GPT-4o mini;在多模态医疗应用领域,具有更为突出的领先优势。

-Omni-1.5不仅能够实现输入输出端的多种交互操作,还具有强大的多模态推理能力和跨模态迁移能力。

百川智能发布Baichuan-Omni-1.5开源全模态模型,支持文本、图像、音频和视频全模态理解插图

采用音频技术领域的端到端解决方案,可支持多语言对话、端到端音频合成、自动语音识别、文字转语音等功能,并支持实时音频和视频交互。

据介绍,在视频理解能力方面,-Omni-1.5通过对编码器、训练数据、训练方法等多个关键环节的深度优化,整体性能明显超越GPT-4o-mini。

百川智能发布Baichuan-Omni-1.5开源全模态模型,支持文本、图像、音频和视频全模态理解插图1

百川智能发布Baichuan-Omni-1.5开源全模态模型,支持文本、图像、音频和视频全模态理解插图2

在模型结构方面,-Omni-1.5的模型输入部分支持各种模态通过相应的/输入到大语言模型中。

在模型输出部分,-Omni-1.5采用了文本音频交错输出设计,通过Text和Audio同时生成文本和音频。

百川智能构建了包含3.4亿条高质量图文数据和近100万小时音频数据的庞大数据库,并在SFT阶段使用了1700万条全模态数据。

IT之家附上开源地址如下:

模型重量:

技术报告:

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论