首页 > 新闻 > 科技

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

AI音乐概念爆发,中国音乐GPT时刻来了吗?

第一财经 2024-04-18 17:41:14 听新闻

责编:陈婷

随着人工智能技术的飞速迭代和应用场景的日益扩展,二级市场上的AI概念股迎来了新一轮的涨势。

年初,Sora的惊艳表现点燃了AI概念股的热情,紧随其后,国产长文本大模型概念股引领的AI应用板块在上月强势上扬,多只股票涨停。不久前,音乐平台Suno的问世,更是激发了音乐概念股的创新思考。进入2024年,随着大模型向各行各业的深入推进,预计更多复杂而多元的应用场景将逐步实现,频频牵动二级市场的神经。

一年半前, ChatGPT的发布引爆全球对人工智能的广泛关注,也引发了全球科技巨头的新一轮AI军备竞赛。国内市场也不甘落后,各家围绕核心算法、模型参数、计算能力等方面展开激烈的角逐。经过“深度学习框架优化”和“大规模预训练模型研发”阶段的技术爆炸,AI世界即将迎来巨大的变革和新一轮的角力。

2024年,OpenAI发布文生视频大模型Sora,开启AI大模型在影视行业的全面落地。不甘落于人后的Google也推出Gemini,并宣布通过将Gemini Nano的衍生版本应用于智能手机,实现一系列智能化功能。随后,SunoV3模型横空出世,开启音乐领域的新一轮变革思考。业界预计,2024年将迎来AI应用爆发元年,AI将在各行各业落地实践,AI商业化浪潮将加速袭来。

反观国内市场,在这场浪潮中最先发声的是昆仑万维。4月17日,距离正式发布自研千亿级大语言模型“天工”一年时间后, 昆仑万维发布4000亿参数全球最大规模的开源MOE大模型——天工3.0。该模型采用4000亿级参数MoE混合专家模型,是全球模型参数最大、性能最强的开源MoE模型之一。与此同时,还发布了基于天工3.0打造的国内首个AI音乐生成大模型天工SkyMusic。

「天工SkyMusic」界面

天工SkyMusic是中国首个实现音乐AIGC SOTA的大模型,这一应用不仅为音乐产业带来了创意与活力,也有望为AI技术在音乐艺术创作领域的应用开辟了新天地。

中国音乐的GPT时刻来了

昆仑万维对音乐领域AIGC的探索,其实早在2021年就已经开始。早期研发中,昆仑万维选择了行业普遍通用的符号生成路线,并走到了相对成型的阶段。但由于符号生成路线只能生成乐谱而非音乐的弊端,以及生成音乐在人声合成上的不理想。研发团队全盘推翻成果,选择了大模型音乐音频生成路线,并决定攻克人声演唱的行业难题。这意味着昆仑万维需要在路线和人声演唱这两个业界几乎没有公开参考案例的领域,投入更多的研发资源和资金,做出更多的尝试。

通过不断的摸索,昆仑万维终于摸索出一套自主研发的类Sora架构,实现了对前版大模型的颠覆性超越。这套架构采用了Encoder-DiT-Decoder结构,通过Large-scale Transformer 技术负责谱曲,Diffusion Transformer 负责演唱,LDM还原成高质量音频。同时运用目前最大的,包含了2000万首歌曲的音乐数据集训练模型。

「天工SkyMusic」自研AI音乐大模型技术架构

作为中国首个实现音乐AIGC SOTA的大模型,天工SkyMusic集成了在自然语言处理和音频生成技术上的最新突破,使得AI音乐创作的表现达到新高度。

在多项前沿技术的配合以及2000万首音乐的深度学习下,天工SkyMusic在中文效果、人声自然度 、情感、唱法等方面都表现出色。能够通过歌词控制情绪变化,并实现如颤音、歌剧、吟唱等多种歌唱技巧,使生成的音乐作品情感更加丰富且贴合情境。还支持创作说唱、民谣、放克、古风、电子等多种音乐风格,用户可以根据个人喜好定制音乐风格,体现在音乐创作上的灵活性和普适性。

此外在中文歌曲创作上,天工SkyMusic尤为出色。不仅能发音准确,咬字清晰,在中文人声自然度、可懂度等方面均超越Suno等同类产品,还能模仿粤语、四川话等中文特色方言,实现了音乐创作维度的多元化和个性化。

天工SkyMusic的发布标志着中国企业在音乐AIGC领域的引领地位。它打破传统音乐创作的高成本壁垒,助力音乐创作走向普惠与民主化,鼓励更多独立音乐人和普通用户加入音乐创作队伍,指数级提升音乐UGC内容的产出。同时它也能服务于专业音乐人,通过缩减词曲创作、编曲等工作提升了音乐创作效率,让快速创作和试验新的音乐构思成为可能,从而促进音乐市场的扩容和行业生态的健康发展。

随着天工SkyMusic凭借其尖端技术和独特优势,有效解决音乐创作中的诸多难题,无疑为音乐产业打开了全新的增量市场。天工SkyMusic可以赋能短视频创作者,让他们便捷地创作契合视频内容的背景音乐,提升内容质量和观众体验。在音乐教育领域,它能够作为辅助教学工具,让学生体验实时音乐创作过程,增强学习兴趣,推动音乐教育普及,或是围绕它打造互动性强的在线音乐创作课程,丰富教育资源,让更多人有机会接触和实践音乐创作。

4000亿参数,全球最大开源MoE大模型

作为国内较早一批布局AIGC领域的企业,早在2022年12月时,昆仑万维就正式发布了「昆仑天工」AIGC全系列算法与模型,并宣布模型开源,成为国内第一个全身心投入到AIGC开源社区的公司。到了2023年4月17日,昆仑万维正式发布自研千亿级大语言模型“天工”,随后面向C端先后推出“天工AI搜索”,AI Agent开发平台。2024年2月6日,昆仑万维向全社会免费开放千亿级参数大语言模型「天工 2.0」,并打造AI绘画、数据分析等创新功能,进一步满足文案创作、知识问答、代码编程、逻辑推演、数理推算等多元化用户需求。

相较于上一代「天工2.0」MoE大模型,本次昆仑万维发布的「天工3.0」不仅是4000亿参数全球最大规模的开源MoE大模型,更在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。

逻辑推理能力的提升对于大模型解决复杂问题至关重要。在「天工3.0」AI搜索的研究模式中,模型能够围绕用户的某个简单指令进行相关问题的延伸,并实时判断该段落信息是否需要联网搜索,基于此实现对某个行业的细致拆解分析、总结相关事件、拆解产业链地图等复杂功能,并以结构化或思维导图的形式进行最终展示,让模型更“聪明”。

在语义理解方面,需要更好地理解和处理用户自然语言Query中的复杂语义信息,包括隐喻、多义词等。例如,在「天工3.0」AI搜索的增强搜索中,模型能够针对用户的复杂Query进行拆解、细化,并进行追问、信息理解与补全,使其在自然语义理解方面性能更强,面对不确定性知识时表现更好,能够更精准、高效地满足用户需求。

以最近在网络上爆火的“成都迪士尼”为例,成都实际上并没有迪士尼,而是因说唱歌手一句歌词演变而来,令成都某居民区楼下的健身器材场地成为年轻人的热门打卡地。昆仑万维董事长兼CEO方汉介绍道,当向「天工3.0」AI搜索提问后,它不仅会把正确的信息搜出来,准确介绍成都迪士尼的由来,还会为用户怎么去玩儿做出规划。

而围绕大模型的主流落地方向AI Agent(智能体),「天工3.0」针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练,能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。

在内容创作方面,「天工3.0」进行了全面的内容创作能力升级,其不仅能实现AI音乐生成、AI语音、AI对话、AI二次元漫画生成等强大的内容创作能力,更是通过专项Agent训练实现了在对话中结合文本需求实时生成图片、结合文本需求实时内容分析及图表构建等能力,成为真正能搜、能写、能读、能聊、能听、能说、能画、能看、能唱的大模型,带来全新的AI体验升级。

对于天工3.0的一系列升级,华泰证券评价,“天工”大模型基础稳固,持续迭代并围绕模型不断推出 AI 相关应用, 同时公司以增资等方式推进 AI 算力芯片的研发,布局 AI全产业链,有望建立起在人工智能赛道的长期竞争力。同时在今年3 月 30 日,昆仑万维发布 2024 年第一期限制性股票激励计划,面对核心技术(业务)人员定向增发配股。信达证券认为,“天工大模型 3.0”发布在即,公司开启员工激励彰显了自身的信心。

随着天工3.0和天工SkyMusic昨日正式发布,市场也有了回应。当天昆仑万维股价上涨超3%,AIGC板块也迎来集体反弹。市场的积极回应,不仅意味着对昆仑万维最新成果的认可,也折射出业界对音乐AIGC技术即将引领产业变革的期待。

伴随天工SkyMusic在C端市场的广泛应用,将催化音乐AIGC产业链上下游的协同发展,涵盖版权管理、数字分发、音乐教育、娱乐互动等诸多领域,由此产生可期的经济效益和社会价值。

AI音乐概念股热度升温

昆仑万维创始人周亚辉曾判断,未来三十年,人类社会很大的一个变化,是人类要从感知线,变成表达线,整个人类社会在自我表达侧要翻1000倍;创作和自我表达是未来30年在整个社交和文化领域增长最快的曲线,会有越来越多人表达自我,表达对世界的理解、对社会事物的态度,表达越来越艺术化和趣味化。他表示,这种表达在过去很困难,因为工具门槛高,而未来30年是自我表达的30年,昆仑万维要用AI把人类创作的门槛降得足够低,让人们更充分地实现自我表达。

可以看到,在AGI领域,目前多数团队都专注于智力的扩展和增强,几乎没有人关注AI如何帮助人们理解和更好地表达情感。AGI的终极目的是更像“人”,但人是兼具感性、理性的,推理、逻辑思维、感知、情感理解、表达能力缺一不可,今天的大模型大多还是智力、理解、做题等,但缺少情感理解和表达的部分,目前这也是业内的一个很受关注的细分领域。因此,情感 AGI 作为昆仑天工探索研究的一个重要方向,音乐正是其中的重要部分。

方汉认为,AI音乐生成技术的出现,并不是为了“切走了音乐行业的蛋糕”,而是使非专业人士也能轻松创作出具有一定水准的音乐作品,这将极大地拓展音乐创作者群体,让更多普通人有机会参与到音乐创作中来,促进音乐内容的多样化和个性化。随着创作者群体的增多,市场上将出现大量的音乐素材,为音乐创作提供持续不断的灵感来源,大大提高了行业整体的生产力和创新能力。

不只是音乐,方汉提到,昆仑万维喊出昆仑万维“All in AGI与AIGC”,从小说到漫画到音乐、视频进行大量研发投入,目的就是降低所有人创作门槛,更好地表达自己。

从Suno的爆发,到国内天工3.0和SkyMusic的推动,AI音乐概念股的市场热度持续升温,投资者对于这一新兴领域的关注度和投资热情日益高涨。业内人士预计,和此前文生图片、文生视频等AI在内容创作领域的变革类似,AI在音乐领域的投资机会也值得关注。

AI音乐仍处于市场渗透的初级阶段。随着消费者认知的提升和市场需求的增长,AI音乐概念股的实际影响和长期价值不容忽视。随着AI技术的不断深入,音乐创作将变得更加智能化、个性化,从而满足用户多样化的需求。例如,通过与音乐平台、唱片公司等合作,推动AI音乐的商业化进程,以及与社交、游戏、影视等行业跨界融合,提供定制化的音乐解决方案,带来更多的应用场景和商业机会,促进音乐产业的创新和发展,形成良性循环。

还有行业人士对记者分析指出,低成本、高效的AI音乐创作可能会催生出新的商业模式,如按需定制音乐服务、在线音乐创作工具订阅等,为音乐产业带来新的消费增长。以及面向教育领域,AI音乐创作可以帮助用户快速感知音乐创作原理,尝试多种音乐风格创作,为音乐产业培养孵化新一代人才。

举报
一财最热
点击关闭