音乐生成 Openai JukeBox音乐项目文生音乐项目最新进展

显示全部楼层

JukeBox音乐生成，从2019年开始研发，目前它仍然属于未开放的阶段，随着Sora火了之后它最近又开始有研发动作，我们看到官方的各个媒体下很多人都在讨论关于Sora视频的配音问题，它大概率和Sora是有关联的，让我们重新认识一下Jukebox

音乐生成-Openai JukeBox音乐项目文生音乐项目最新进展(1)

它的初衷原本是音乐生成，它的工作原理是，文生音乐，通过编辑歌词来生成对应的音频。如果配合Sora相信它应该是可以文生配音，因为大部分人关心的都是背景音乐和对口型的问题，尤其对口型这是一项很复杂的工作。

JukeBox发展时间

音乐生成-Openai JukeBox音乐项目文生音乐项目最新进展(2)

精选样品

提供流派、艺术家和歌词作为输入，点唱机输出从头开始制作的新音乐样本。下面，我们展示了一些我们最喜欢的示例。

音乐示例

歌词调理

除了根据艺术家和流派进行调节之外，我们还可以通过根据歌曲的歌词调节模型来在训练时提供更多背景信息。一个重大的挑战是缺乏对齐良好的数据集：我们只有歌曲级别的歌词，而没有与音乐对齐，因此对于给定的音频块，我们不确切知道歌词的哪一部分（如果有）出现。我们还可能有与歌词版本不匹配的歌曲版本，如果给定的歌曲由几位不同的艺术家以略有不同的方式演奏，则可能会发生这种情况。此外，歌手经常重复短语或以其他方式改变歌词，而这些方式并不总是在书面歌词中体现出来。

为了将音频部分与其相应的歌词匹配，我们从一个简单的启发式开始，将歌词的字符对齐以线性跨越每首歌曲的持续时间，并在训练期间传递以当前片段为中心的固定大小的字符窗口。虽然这种简单的线性对齐策略效果出奇地好，但我们发现它对于某些歌词快速的流派（例如嘻哈音乐）来说是失败的。为了解决这个问题，我们使用 Spleeter32 从每首歌曲中提取人声，并对提取的人声运行 NUS AutoLyricsAlign [ ^reference-33] 以获得歌词的精确词级对齐。我们选择了足够大的窗口，以便实际歌词有很高的概率位于窗口内。
为了关注歌词，我们添加一个编码器来生成歌词的表示，并添加使用来自音乐解码器的查询来关注来自歌词编码器的键和值的关注层。训练后，模型会学习更精确的对齐方式。

音乐生成-Openai JukeBox音乐项目文生音乐项目最新进展(4)

原信息截止到2020年2月，近期重启是3月1日左右，相信它和Sora是有联动的，请关注我们阅读最新报道。

微信扫一扫 分享朋友圈

音乐生成 Openai JukeBox音乐项目文生音乐项目最新进展

微信扫一扫分享朋友圈