8月13日,记者了解到,阿里通义大模型继续开源,Qwen2系列开源家族新增音频语言模型Qwen2-Audio。
据悉,Qwen2-Audio可以不需文本输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。通义团队还同步推出了一套全新的音频理解模型测评基准,相关论文已入选本周正在举办的国际顶会ACL 2024。
Qwen2-Audio是一款大型音频语言模型(Large Audio-Language Model ,LALM),具备语音聊天和音频分析两种使用模式,前者是指用户可以用语音向模型发出指令,模型无需自动语音识别(ASR)模块就可理解用户输入;后者是指模型能够根据用户指令分析音频信息,包括人类声音、自然声音、音乐或者多种信号混杂的音频。Qwen2-Audio能够自动实现两种模式的切换。Qwen2-Audio支持超过8种语言和方言,如中文、英语、法语、意大利语、西班牙语、德语、日语,粤语。
根据Qwen2-Audio技术报告,Qwen2-Audio的模型结构包含一个Qwen大语言模型和一个音频编码器。在预训练阶段,依次进行ASR、AAC等多任务预训练以实现音频与语言的对齐,接着通过SFT(监督微调) 强化模型处理下游任务的能力,再通过 DPO(直接偏好优化)方法加强模型与人类偏好的对齐。
此外,通义团队同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本Qwen2-Audio-7B-Instruct,用户可以通过Hugging Face、魔搭社区ModelScope等下载模型,也可以在魔搭社区“创空间”直接体验模型能力。
“真正做大模型的公司,如果你一万张卡都没有,你就根本不要讲自己是在干大模型的公司。”
“我们心中还是很有底气的,但是需要一点时间。”科大讯飞董事长刘庆峰在8月22日的业绩交流会上表示。
演讲围绕四个篇章展开“设计新自我”的商业方法:漫长的正反馈;诚实的原创力;专注的进化论;勇敢的增长观,并现场发布新物种爆炸2024四大主题的12个新商业预测。
谷歌发力参数量更小的大模型。
利用人工智能生成的内容是否构成作品,需要视个案情况而定,不能一概而论。