人工智能70年发展历程:从达特茅斯会议到AI音乐创作的全方位突破

进不了网站?换个网络试试!

人工智能70年发展历程:从达特茅斯会议到AI音乐创作的全方位突破插图

(来源:麻省理工学院)

“人工智能”一词刚刚出现在1956年,当时计算机上的顶级科学家聚集在达特茅斯参加夏季会议。

将近70年后,在该领域的几个崛起和下降周期之后,它处于蓬勃发展的阶段。在过去的三年中,用于生成文本的大型语言模型发展迅速,基于扩散模型的另一种人工智能正在以前所未有的动量影响创意领域。扩散模型可以将随机噪声转换为有序模式,并在文本提示或其他输入数据的指导下生成全新的图像,视频或声音。顶级扩散模型产生的内容与人类的创造无与伦比,还可以产生奇怪而超现实的作品,这与乍一看与人类的创造不同。

这些模型现在进入音乐领域。从交响曲到重金属制作的人工智能创作的音乐作品已完全融入我们的生活中。这些歌曲可能出现在流行的媒体平台播放列表,派对和婚礼播放列表以及电影和电视配乐中。

人工智能70年发展历程:从达特茅斯会议到AI音乐创作的全方位突破插图1

音乐图像

音乐创作中扩散模型的原理类似于图像的产生,但它不是从钢琴和弦开始的,并且逐渐添加了诸如人声和鼓等元素,而是一次产生所有音乐元素。这个过程基于以下事实:歌曲的许多复杂特征可以在单个波形中视觉显示,这代表了随着时间的流逝,声波的振幅变化,实际上包含所有不同仪器和音调的频率之和。

由于可以像图像一样处理波形或类似的光谱图,因此可以根据图像创建扩散模型。训练模型时,将数百万现有的歌曲片段输入其中,并将描述标签添加到每个段中。当生成新歌曲时,模型以纯随机噪声开头,并根据提示单词中的描述逆转新波形。

人工智能音乐公司Udio和Suno在音乐发电模型领域激烈竞争。两家公司都致力于开发允许非专业音乐家创作音乐的AI工具。 Suno更大,拥有超过1200万用户,并在2024年5月获得了1.25亿美元,并且还与知名的音乐家合作。乌迪奥(Udio)于2024年4月从著名的投资机构和音乐家那里获得了1000万美元的种子融资。

目前,乌迪奥(Udio)和苏诺(Suno)的成就表明,许多人似乎并不在乎他们听的音乐是由人类创建还是由机器产生。 Suno为创作者提供了艺术家页面,其中一些吸引了许多粉丝。这些创作者使用AI来生成歌曲,并经常与AI产生的艺术家图像相匹配。从传统意义上讲,他们不是音乐家,而是精通迅速单词的大师。他们创作的作品很难属于某个作曲家或歌手。

人工智能70年发展历程:从达特茅斯会议到AI音乐创作的全方位突破插图2

(来源:麻省理工学院)

但是,音乐界正在抵制这一点。 2024年6月,两家公司被主要唱片公司起诉,相关诉讼仍在进行中。 和Sony等唱片公司指责AI模型在训练过程中使用大量受版权保护的音乐,并产生了“模仿真正的人类录制质量”。

在针对Suno的诉讼中,提到了类似于Abba风格的歌曲。 Suno没有回应诉讼的评论请求,但在8月份发表的声明中,首席执行官Mikey在公司博客上说,该公司正在公开访问音乐进行培训,该培训确实包含受版权保护的内容,但他认为“学习不构成侵权”。乌迪奥的代表说,该公司不会对未决诉讼发表评论。当诉讼发生时,Udio发表声明说,其模型配备了过滤器,以确保版权所有的作品或模仿艺术家的声音没有复制。

美国版权办公室在一月份发布的指导使情况变得复杂。意见指出,如果人工智能产生的作品与大量人类投资集成在一起,则可以获得版权。一个月后,纽约的一位艺术家获得了在AI的帮助下创作的视觉艺术作品的第一个版权。也许很快,第一首AI生成的歌曲也将被版权保护。

人工智能70年发展历程:从达特茅斯会议到AI音乐创作的全方位突破插图3

新颖和模仿

这些法律案件被困在模糊的区域中,类似于其他与AI相关的法院纠纷。核心问题是是否允许使用受版权保护的内容对AI模型进行培训,以及生成的歌曲是否构成了人类艺术家风格的不适当副本。

无论法院最终如何决定,AI音乐都有可能以某种形式蓬勃发展。据报道,它已经与主要唱片公司进行了会谈,以获得AI培训的音乐许可。 Meta最近还扩展了与环球音乐集团的合作协议,这意味着AI生成的音乐授权可能会在议程上。

如果AI音乐继续发展,它的价值是什么?这涉及三个关键因素:培训数据,扩散模型本身和及时的单词。模型的质量取决于它所学的音乐库及其描述的丰富性。描述越准确,模型的效果越好。该模型的体系结构决定了它如何使用所学知识生成歌曲的方式。模型输入的及时单词和及时词的“理解”程度也至关重要。

音乐是由AI创建还是简单地复制培训数据产生的?可以说,最关键的问题在于培训数据的广度,多样性和标签准确性。 Suno和Udio都没有透露其培训集中包含哪些音乐,但是可以在诉讼过程中披露这些细节。

乌迪奥说,对歌曲的标记方式对模型极为重要。一个简单的描述可以简单地确定歌曲的流派,而更详细的描述也可能包括歌曲的情感语气,例如忧郁,兴奋或镇定,而专业描述可能涉及2-5-1和弦的进步或特定规模。乌迪奥说,他们通过将机器和手动标签结合使用来实现这一目标。

竞争激烈的AI音乐生成平台还需要不断学习新歌,否则其生成的作品将逐渐变得过时。目前,AI产生的音乐取决于人类创造的艺术作品,但是将来,AI音乐模型可能会使用自己的输出进行培训,并且该方法已在其他AI领域进行了实验。

由于模型从随机噪声采样产生音乐,因此结果不确定,即使输入相同的提示单词,每次生成的歌曲也会有所不同。包括UDIO在内的许多扩散模型开发人员还将在生成过程中增加额外的随机性,即对每个步骤生成的波形进行微调,希望使输出更有趣或现实。

人工智能70年发展历程:从达特茅斯会议到AI音乐创作的全方位突破插图4

(来源:麻省理工学院)

如果创造性输出的定义既新颖又有用,那么机器可能与“有用性”标准的人类相媲美,但是人类在“新颖性”方面更好。

为了测试这一点,我花了几天的时间体验了Udio的模型。使用此模型生成30秒的音乐示例大约需要一两分钟,如果是付费版本,则可以生成一首完整歌曲。我选择了12种音乐流派,为每种流派制作了歌曲样本,并找到了类似于人类歌曲的歌曲。然后,我设计了一个测验,让我的同事讲述了哪些歌曲是由AI创作的。

最终测试结果的平均准确率为46%。听众经常在某些流派中犯错误,尤其是乐器音乐。在观察和测试中,我发现他们认为AI合成歌曲的特征(例如奇怪的人声效果和怪异的歌词)通常是不可靠的。不出所料,人们在判断不太熟悉的音乐流派方面的准确性较低。有些人对乡村音乐或灵魂音乐的判断力更为准确,但是许多人对爵士乐,古典钢琴音乐或流行音乐的判断力很差。创造力研究专家Beaty的测试准确性为66%,作曲家为50%(尽管他在管弦乐和钢琴奏鸣曲的测试中非常准确地回答)。

应该清楚的是,这些AI生成的歌曲并不完全归因于模型本身,而没有人类艺术家作为培训数据的作品,这些歌曲根本不可能出生。但是,仅凭简单的迅速单词,该模型就可以产生许多人难以分辨它们是否由机器编写的歌曲。在聚会上播放这些歌曲并不容易被奇怪地注意到。我还发现了两首我非常喜欢的歌曲,甚至对音乐非常挑剔的专业音乐家或人们也不会突然感到突然。但是,听起来不可能听起来并没有创造力。这些歌曲缺乏独特的风格,而没有贝多芬风格的“谈到杰作”,并且没有突破流派限制或在主题中显示大胆的创新。在测试中,有时很难分辨出歌曲是由AI或质量差的人类作品产生的。

人们可能想知道这些音乐背后的创作者是谁。但是,在最终分析中,无论有多少人工智能组成部分或有多少人类组成部分,毕竟是艺术,人们都会根据其美学价值的质量来判断它。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论