谷歌大脑“AI+艺术”项目之MusicVAE:用机器学习为音乐创作插上想象的翅膀

2023-05-10 14:56:27

「将门2018年度创新峰会」强势来袭！

3月24日，我“门”将在北京举办首届将门年度创新峰会，届时将携手科技圈的技术大咖们，首次集结来自交通、医疗、零售、生活等领域的数十家行业引领大企业以及优秀的创业企业们，共同探讨AI最新技术创新趋势、解读技术激活商业场景的热点话题、深究AI落地产业发展的现在及未来，共同向创新者致敬。

报名请点击本页面左下角“阅读原文”，嘉宾阵容与活动详情>>活动报名 | 未来可期，一场连接“小”与“大”的AI效能创变即将打响。更多重磅消息请持续关注将门创投微信公众号的播报。

来源：Magenta

编译：T.R

当画家在创作时会在自己的画盘里混色、探索，调出喜欢的颜色然后才在画布上创作。这种探索的过程对于艺术家来说十分重要，对于作品最终的效果有着不可取代的作用。同样，对于音乐家来说也需要类似颜料盘一样的东西来探索音乐的组合、尝试不同的想法，但他们却缺乏趁手的工具。MusicVAE的推出将会给音乐家们以更大的想象空间，这是一个可供音乐家混合和探索乐谱曲调的机器学习模型，像调色盘一样给音乐家们插上想象的翅膀。

MusicVAE是利用机器学习进行艺术创作项目Magenta的一个子项目。Megenta是由Google Brain发起的旨在利用机器学习进行绘画、音乐创作项目，工程师们致力于探索和推进机器学习的边界，同时作为开发者也尽力为艺术家们提供更容易理解和使用的模型和工具。

研究人员们开发出了一种称为隐空间模型（latent space models）的工具，其技术目标是将高维数据通过低维编码呈现出来，使得人们对于数据的直觉特点能够被容易的探索和操控。作为一款创意工具，它又能为艺术家提供调色板一样的直觉工具来探索和操作艺术元素。

目前研究人员们已经利用隐空间模型研发出了用户画简笔画的SketchRNN和用于音乐去掉的NSynth，以及今天将要介绍的MusicVAE：用于学习乐谱隐含空间的分层递归变化自动编码器。

为了便于利用MusicVAE构建工具，研究人员们还发布了js库和预训练的模型供人们在浏览器中使用。

隐空间

音乐序列本质上具有高维特性，拿钢琴来说，任意一时刻88个键中的任意一个都有可能处于按下或者释放的状态，或者演奏者在休息。那么一共就有九十中可能（88键，1释放，1休息），如果我们记录下两小节4/4拍的16分音符就会出现90^32中可能的序列，远远超出了我们能计算的大小。

利用枚举法探索所有的可能序列是不现实的，而且其中还包含了大量不成音乐的随机序列。下面的图横轴表示了16分音符两小节的音乐，纵轴表示了钢琴上的音符。下图分别是随机序列和隐含空间模型学习到的序列特征：

隐含空间模型可以学习到训练序列中的基本特征并排除非常规的随机序列，同时还能在低维空间中表示真实数据的变化。这意味着模型可以以很高的精度重建真实样本。此外，当在压缩数据集空间时，隐藏空间模型将会趋向于利用基本特征来组织，将类似的样本聚合在一起并按照定义它们特征的方差来进行排列。

隐藏空间模型的特点可以总结为以下几个方面：

压缩表达：任何真实的样本都可以被映射到隐含空间中，并从中重建；
真实性：隐含空间中的任何点都代表着真实空间中的数据，即使数据不在训练集中；
平滑性：在隐含空间中邻近的样本具有相似的特性。

这些特性和画家的探索和混合颜料的调色板很类似，同样也可以提升创造力。例如利用压缩表达和平滑性隐藏空间可以利用SketchRNN来学习简笔画从重建出完整的手绘图形。

而真实性则可以让艺术家利用隐藏空间变化的随机点生成与训练集类似的新样本就像SketchRNN中实现的一样：

同时我们还可以利用隐藏空间来进行语义变化，例如“隐藏约束”“特征矢量算法”来进行变化。隐含空间可以对数据集的模型重要特征进行解耦，我们可以通过平均一般特征的隐含矢量来得到特征矢量（例如猫脸特征矢量）。通过加减运算可以将不同的特征进行组合并利用模型进行解码，实现相对特征的增减操作，如下图所示：

如何学习隐含空间

目前有很多模型可以学习到隐藏空间的表示，但不同的模型对于上述提到的三个特性（expression，realism，Smoothness）都有不同的权衡。

自动编码器就是一种有效的学习模型，它可以学习将每一个输入样本（encode）压缩为一个数值矢量（隐含变化z），随后又基于隐含矢量重（decode）建出相同的样本。自编码器的关键在于生成出比数据维度更小的矢量来表述数据。在这一过程中，自编码器将提取数据集中的特性。NSynth就是自编码器的一个例子，它利用音频学习到了曲调的隐含空间。

但自编码器也会存在问题，在隐藏空间中会有“洞”的存在，这意味着随机解码一个隐含矢量有可能不能生成真实的数据。例如NSynth在重建的时候缺乏真实性，这就来源于随机采样和“洞”的影响。

隐含空间环

利用MusicVAE我们可以从与SketchRNN类似的架构开始学习旋律片段的隐含空间，提取出期待的特征。下面讲一步步描写这一过程及得到的结果。

首先，我们来描述两个旋律之间的变奏过程。这里有Bassline和Melody两端旋律，首先在数据空间中利用了简单的差值方法，如下图所示，两端黑色的是原始的两端旋律，中间的是生成的变奏部分。

虽然开始和最后的旋律很好的匹配上，但中间的间奏既不像baseline也不像Melody，临近的音乐没有相似的音符，这样的输出虽然有了特征压缩但是缺失了真实性和连贯性。

上图则是使用MusicVAE在隐含空间中生成的间奏旋律，我们可以看到旋律间变得更加贴近真实的旋律，同时变换也更加平滑。此时的间奏就不仅仅限于原始的输入了，而是加入了更多真实的旋律端使得变奏更加平滑有效。这个例子就具有了我们前所提到的特征压缩、真实性和连贯性三个特点。

长程结构

为了实现像语言模型一样的长程分析和生成，先前的模型便不在适用。研究人员们提出了一种新颖的层级解码器结构，来从独立的隐含编码中生成长程结构。

就像上图中描述的一样，研究人员在网络中增加了“引导器”的RNN结构来生成新的输出小节，代替了原来直接利用隐含代码初始化音符RNN解码器。由于解码器的存在，代替了隐含编码本身，可以独立的生成16小节独立的音乐。

这种有条件的独立对于这一架构至关重要。由于模型不能简单的将训练过程中音符解码器自回归过程中的误差进行反馈，它在重建序列时对隐含代码就会产生更强的依赖。基于这一架构就可以重建、采样和平滑插值更长的旋律。下面是旋律A和旋律B的混合：

同时还可以利用特征矢量算术方法在保持基本结构的前提下控制音乐中的某些特征。下图分别表示了原始音频增加或者减去音符密度矢量后的结果。

将乐器们合在一起才是交响乐

在对单一的乐器训练出可以生成长短的音乐结构后，研究人员开始尝试着将分层结构应用于多种乐器的演奏中去。这时候对于上面的网络又进行了改造，引导器后面不在是单一的解码器，而是代表多个不同乐器的解码器。为了表达不同乐器间的组合，这里选用了与单个modelies相同的操作，例如可以在8个完全不同的乐器中选出两个来进行差值生成。

音乐家的好帮手

MusicVAE对于音乐家作曲家和音乐出品人将会有着各种有趣而且有用的应用，同时团队也在与更多的开发者合作开发出能让更多人方便使用的工具和软件。目前有三个很好的应用，分别是Google创意实验室的Melody Mixer用于间奏生成，用于混合节奏的Beat Blender，以及谷歌Pie Shop出品的Latent loops用于生成和探索不同形式的音乐草稿，并用交互的方式高效的生成旋律。

这篇文章对于创意编程、音乐家、作曲家、研究人员都会十分有用。为了让更多的人使用，团队还构建了基于deeplearn.js的MusicVAE js包接口和多个预训练模型，这使得我们可以方便地构建app和网页应用，如果你有兴趣，请看文末参考资料，一起来开发美妙动听的音乐吧。

一些参考

论文：

https://goo.gl/magenta/musicvae-paper

magenta:https://magenta.tensorflow.org/

demo:

https://g.co/melodymixer

https://experiments.withgoogle.com/ai/beat-blender/view/

https://goo.gl/magenta/latent-loops

API：https://github.com/tensorflow/magenta/tree/master/magenta/models/music_vae/js

教程：

https://medium.com/@torinblankensmith/melody-mixer-using-deeplearn-js-to-mix-melodies-in-the-browser-8ad5b42b4d0b

-The End-

将门2018招聘看这里！

企业战略合作、投资总监/经理、财务总监、新媒体运营、技术专家、行业专家等多个岗位期待您的加入~

也欢迎您转给身边优秀的朋友！推荐成功、一经录用将获得15000元现金作为答谢！

简历请发送至>>dream@thejiangmen.com；更多详情>>将门招聘 | 2018年将门开放大量职位，期待你的加入！

将门是一家专注于发掘、加速并投资技术创新激活商业价值的创业公司的创投机构，旗下设有将门创新服务、将门技术社群以及将门投资基金。

将门创新服务专注于使创新的技术落地于真正的应用场景，激活和实现全新的商业价值，服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容，使创新成为持续的核心竞争力。

将门投资基金专注于投资通过技术创新激活商业场景，实现商业价值的初创企业，关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在两年的时间里，将门投资基金已经投资了包括量化派、码隆科技、禾赛科技、伟景智能、Convertlab、迪英加科技等十几家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

将门创投

让创新获得认可！

微信：thejiangmen

bp@thejiangmen.com

阅读原文”，即刻参与！

大家在看

【白河新闻】我县举办“白河民歌”培训班 2023-05-10 14:56:27
【时政】一首歌一张图带你了解两会 2023-05-10 14:56:27
谈满族说部中的“时政歌” 2023-05-10 14:56:27
(时政动态)蓝衣壮赛歌争歌王 2023-05-10 14:56:27
叙事诗歌 || 若赠风花与雪月,不过成长于此时 2023-05-10 14:56:27
谷歌152亿人民币曼哈顿买楼:全球科技龙头纷纷落户,纽约商业地产水涨船高! 2023-05-10 14:56:27
青成长丨二十岁后,重谱理想叙事曲 2023-05-10 14:56:27
升国旗、奏国歌……童星实验小学升旗仪式竟不按套路出牌? 2023-05-10 14:56:27
岁月如歌检徽在传承中熠熠生辉——秭归检察举行干部退休仪式 2018/3/14(585) 2023-05-10 14:56:27
庆典变赚钱手段 “首歌”引粉丝不满 2023-05-10 14:56:27