阿里通义大模型开源,Qwen2-Audio 音频语言模型亮相,具备语音聊天和音频分析模式

进不了网站?换个网络试试!

据悉,Qwen2-Audio 无需文字输入,即可直接进行语音问答,并能理解和分析用户输入的音频信号,包括人声、自然声、音乐等。该模型在多个权威评测中均大幅超越了之前的最好模型。统一团队还同步推出了一套全新的音频理解模型评测基准,相关论文已入选本周举行的国际顶级会议 ACL 2024。

Qwen2-Audio 是一个 Large Audio-Model (LALM),具有两种使用模式:语音聊天和音频分析。前者意味着用户可以用语音向模型发出命令,模型无需自动语音识别 (ASR) 模块即可理解用户输入;后者意味着模型可以根据用户命令分析音频信息,包括人声、自然声、音乐或混合了多种信号的音频。Qwen2-Audio 可以在两种模式之间自动切换。Qwen2-Audio 支持中文、英文、法文、意大利文、西班牙文、德文、日文、粤语等 8 种以上的语言和方言。

阿里通义大模型开源,Qwen2-Audio 音频语言模型亮相,具备语音聊天和音频分析模式插图

根据Qwen2-Audio技术报告,Qwen2-Audio的模型结构包括Qwen大语言模型和音频编码器。在预训练阶段,依次进行ASR、AAC等多任务预训练,实现音频与语言的对齐,然后通过SFT(有监督微调)加强模型处理下游任务的能力,之后通过DPO(直接偏好优化)方法加强模型与人类偏好的对齐。

此外,统一团队同步开源基础模型Qwen2-Audio-7B及其指令跟随版本Qwen2-Audio-7B-,用户可通过Face、Moda 等方式下载模型,也可以在Moda “创客空间”直接体验模型能力。

本站候鸟号已成立2年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论