Justin's Blog

WaveNet-A Generative Model for Raw Audio

这是我的第一篇博客，决定先翻译一篇文章练练手，正好接下来要做音频生成的项目，就决定翻译一下DeepMind一篇关于WaveNet的博客。这是原文的地址。这篇文章介绍了WaveNet，一种原始音频波形的深度生成模型。我们展示了WaveNets可生成模仿任何人类声音的语音，它听起来比现存的最先进的语音合成(Text-to-Speech)系统更自然,这使得机器与人类表现的差距缩小了50%以上。我们也证明了同样的网络架构可被用来合成其他音频信号，如音乐，我们展示了一些在自动生成钢琴片段上的出色样本。会说话的机器使得人能与机器交流是一个长久以来的关于人机交互的梦想。由于深度神经网络的使用，机器在理解自然语言上的能力在过去几年有了革命性的进步(例如,谷歌语音搜索)。然而，用计算机产生语音——通常被称为语音合成(speech synthesis)或文本到语音(TTS)——仍然主要基于所谓的连接式TTS(concatenative TTS)，它要求记录单一的录制者大量的短语音片段来形成一个巨大的数据库，然后重新组合这些片段以形成完整的话语。这使得在没有重新录制整个新的数据库的情况下，修改声

2019-08-21 | 翻译 | 翻译 WaveNet Deep Learning Machine Learning