阿里通义大模型开源，Qwen2-Audio 音频语言模型亮相，具备语音聊天和音频分析模式

进不了网站？换个网络试试！

据悉，Qwen2-Audio 无需文字输入，即可直接进行语音问答，并能理解和分析用户输入的音频信号，包括人声、自然声、音乐等。该模型在多个权威评测中均大幅超越了之前的最好模型。统一团队还同步推出了一套全新的音频理解模型评测基准，相关论文已入选本周举行的国际顶级会议 ACL 2024。

Qwen2-Audio 是一个 Large Audio-Model (LALM)，具有两种使用模式：语音聊天和音频分析。前者意味着用户可以用语音向模型发出命令，模型无需自动语音识别 (ASR) 模块即可理解用户输入；后者意味着模型可以根据用户命令分析音频信息，包括人声、自然声、音乐或混合了多种信号的音频。Qwen2-Audio 可以在两种模式之间自动切换。Qwen2-Audio 支持中文、英文、法文、意大利文、西班牙文、德文、日文、粤语等 8 种以上的语言和方言。