分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

谷歌语言交互新突破能更逼真模拟人声

第一财经 2016-09-10 14:28:00

责编：边长勇

WaveNet的突破在于改变了这种利用信号处理器转化生成音频信号的范式，直接使用音频信号的原始波形建模。

谷歌DeepMind研究实验室昨天公布了在计算机合成领域的最新成果WaveNet，该语音合成系统能够模仿人类的声音，生成的原始音频相比现有的技术与人类声音的差异缩小了一半。

DeepMind在周五发布的一份博客中称：“该技术已经通过了美国英语和中文普通话的盲测，听众认为WaveNet产生的语音听起来比谷歌现有的语音技术产生的语音更加自然。不过DeppMind表示，目前这种技术还没有被应用到谷歌的任何产品中，而且该系统需要强大的计算能力，近期还不会应用到真实世界的场景中。

让人类和机器自由交谈是人机交互研究领域长久以来的梦想。过去几年，深度神经网络的应用大幅提升了计算机理解自然语音的能力。然而，运用计算机生成语音仍然主要依靠语音合成或者拼接式TTS文本到语言(text to speech)。需要人们先录制单一说话者的大量语音片段，建立一个大型数据库，然后将语音片段合成完整的话语。这种语音合成方式的缺陷在于很难对声音加以修饰，无法表达情感。

为了解决语音合成的这一难题，研究人员尝试运用一种参量改频式TTS(parametric TTS)。在这种TTS系统中，生成数据所需要的所有信息被存储于模型的参数中，语音所传达的内容以及语音特征可以通过模型的输入信息得以控制。不过现有的参量改频式TTS生成的语音通常是将输出的信息交给信号处理算法去做处理，从而生成音频信号，因此听起来还不如拼接式的TTS生成的语音自然。

WaveNet的突破在于改变了这种利用信号处理器转化生成音频信号的范式，直接使用音频信号的原始波形建模，这项技术基于人工智能神经网络，能够模仿人类大脑的功能，比如对于大量信息库数据的处理，因此不仅能够模仿任何人的声音，还能生成音乐。在测试中，WaveNet已经通过分析古典音乐生成了钢琴曲。

上海威盛电子语音交互部门研发总监张国峰对第一财经表示：“通过语音特征来生成波形的方式是比较早期的一种技术，它的原理是语音识别的逆过程，采用的技术和识别也比较接近。从描述上来看，DeepMind应该是基于深度神经网络波形生成的语音。这一点和现在的技术有所不同。深度神经网络的一个重要训练方法就是输出结果经过逆网络后重现输出，也就是自我复制神经网络。”

DeepMind表示，WaveNet还不能马上做商业化应用，因为该系统还需要获得非常强大的计算能力，每秒钟需要采集信号的次数多达16000次或者更多。而且对于采集到的每一个信号，它都要基于前一个信号的样本，分析预测下一个声波会是什么样子。DeepMind研究人员承认这是一个非常大的挑战。

尽管如此，科技公司仍然对DeepMind此次在语音合成方面取得的进展予以极大关注。人机交互已经成为人们与他们的移动电话和汽车取得沟通的重要途径。亚马逊、苹果、微软和谷歌都在个人数字助力的研发上投入大量资金，希望有朝一日能够实现人类和机器自然地对话。芝麻科技创始人CEO朱智对第一财经表示：“智能设备的发展注定了机器与人沟通的方式越来越重要，它说话说得越顺，与人交流就越深入，学会说话了，就意味着它像孩子那样长大了。”

谷歌2014年斥资4亿英镑收购了总部位于英国的DeepMind公司。此后DeepMind就一直从事与人工智能相关的研究。Google Play国际事业部总监Mark Bennett上周在伦敦的一场开发者会议上表示，谷歌移动端语音搜索的比重已经占到20%。

不过在机器对人类语言有了更强的理解能力的同时，他们开口说话的能力并没有跟上。DeepMind希望WaveNet能够成为公司的下一个人工智能主打产品。DeepMind此前因AlphaGo打败韩国围棋大师李世石而一鸣惊人。

截至目前，谷歌依然对人工智能的应用守口如瓶，最近以此谷歌公布人工智能成果在于其对谷歌数据中心的能耗节省方面做出的贡献。这也令谷歌能把节省下来的高达40%的能源开支用于人工智能的研发。

第一财经广告合作，请点击这里

此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。
如需获得授权请联系第一财经版权部：banquan@yicai.com