对于诸如苹果Siri,亚马逊Alexa,微软Cortana以及谷歌Home等语音控制的虚拟助手来说,音频数据是其主要驱动因素。让这些程序能够真正了解用户所说的话需要大量真实的人类语言实例。
这对现有的语音识别公司带来了不少内在优势,因为这些公司已经积累了可用于训练算法的庞大语音数据库。而新的创业公司必须有自己的语音音频文件,当然其可以从现有的数据库中获取,比如很多公司通过TED Talk转录构建的约300小时语料库训练算法。
卡内基梅隆大学研究教授,卡内基梅隆演讲联盟主任亚历山大·鲁德尼奇(Alexander Rudnicky)指出,语音识别算法的开发人员通常需要数百或数千小时的音频资料对算法进行训练。
谷歌于周四发布了全球人类录音的众包数据集。 其中包括65,000个时长一秒钟的音频剪辑文件,内容是来自世界各地的人们关于简单指令词的发音——是的,不,停止,去等等。 而开发开源浏览器Firefox的Mozilla最近推出了一个名为Common Voice的新项目。其目标是建立一个免费的众包性质数据集,其中包含了世界各地的人类语音样本。
谷歌专门为人工智能发布的人类录音数据库,旨在让第三方制造商能够尝试使用机器学习技术。 “我们用来创建数据的基础架构也是开源的,我们希望看到其能够被更多公司用来开发自己的应用,特别是开发更多的语音相关应用程序,”软件工程师Pete Warden在发布会上如是指出。
这个音频数据库存储量超过1千兆,但这只是谷歌用于训练人工智能系统所收集语音数据总量的一小部分。该公司曾经打造了一个自动化的目录帮助服务,事实证明,该服务是谷歌收集人类语音数据的主要方式。
同样,亚马逊的语音数字助理Alexa将用户的语音查询传输到远端服务器,用于进一步训练该数字助手。苹果则通过雇佣演讲者来朗读特定的文字或语句让Siri学习新的语言或方言,此外也会通过采集人们使用服务的语音来形成语音数据库。此外据报到,微软已经在世界各地设立了模拟公寓,模拟真实生活环境中的音频片段并收集形成数据库,从而用于训练自己的Cortana数字助理。
但所有这些数据库都是私有的,学术界,研究人员或其他竞争对手却无法使用。这就是为什么Mozilla决定发布其开源的Common Voice项目。
“当我们开始打造语音识别系统时,我们发现我们可以在已有算法的基础上工作,并在算法方面进行一些创新。但是要想让语音识别系统真正起作用,数据的策划,创建和聚合是一个绕不开的挑战,“Mozilla新兴技术高级副总裁肖恩·怀特(Sean White)如是指出,“如果你想做一个新的语音识别系统,你无法找到一个现成的高质量音频数据集。”
而Common Voice项目会邀请能够上网且配置有麦克风的任何人通过网页浏览器上来提交他们自己阅读特定句子的简短音频记录。这与谷歌项目工作方式有些类似。但不同的是Common Voice要求人们提交完整的句子,而谷歌通常需要的是用作命令的特定单词和数字。Mozilla还会要求参与者提供一些基本的人口统计信息,如年龄,性别和英语方言地区(例如美国英语,加拿大英语、西印度群岛英语或百慕大英语)。
在57天内,Common Voice收集了大约307,000个录音,每段约3至5秒。 Mozilla开放式创新团队数字战略家Michael Henretty说,这使得总音频的播放时长为340到520小时。
他说:“我们已经超越了诸如TED等现有的开源数据库。“
Mozilla的目标是在今年晚些时候发布音频数据库,其希望在此之前能够采集到越10,000小时的音频数据,这个体量足以训练目前任何的语音识别系统。
拥有多样化语音样本的关键优势之一是使得所训练的算法避免了意想不到的偏见。因为任何一个带有口音的人使用语音助手就会发现,这些系统在理解标准发音的语音要更好一些。
谷歌旗下数据科学平台Kaggle的数据准备分析师Rachael Tatman在今年早些时候发表了一篇关于性别和方言是如何影响YouTube自动加载字幕准确性的文章。她发现对于女性和苏格兰的演讲者来说,YouTube的自动加载字幕不太准确。不同的系统往往会出现不同的错误,这主要取决于训练数据。
Tatman说:“如果我曾经看到过很多弗吉尼亚州女性的演讲,我自然会对来自弗吉尼亚州女性的讲话理解准确,而对来自加利福尼亚州男性的理解准确度就没有那么高。”
但现有的开源数据集已经出现了此类问题。例如德州仪器公司最初收集的Switchboard对话数据集就有着不少偏见。而数据偏见在人工智能的其他领域一直是存在的问题,一些算法识别白人话语的效果更好,或者很难理解非裔美国人的本地英语很多高科技公司以及开源项目,都不同程度地存在偏见问题。
Mozilla还会邀请日常用户通过收听来验证自己提交的音频样本。Tatman指出,大多数语音助手开发公司之所以不会提供音频数据库并不完全是为了阻止同业竞争。因为用户的语音查询信息包含了太多的个人内容,例如有个人的网络搜索或发送的短信,这将会带来严重的隐私泄露问题。对于特定用户来说,不法分子可能会他们独特的声音来识别其身份。
然而,公司愿意在内部使用这些数据:苹果公司曾表示,它有保留Siri数据,用户标识符(如ID号码和电子邮件地址)的权利,从而帮助改进算法。
“你的声音是可识别的,”Tatman警告称,“这通常被认为是可识别的信息。”
鉴于其语音数据库最终会开源,Mozilla也采取了一定的措施来保护用户隐私。他说:“我们不得不把用户个人信息从录音中剥离开来分开,这使得剪辑的音频本身没有嵌入任何个人识别信息。”
相比于现有的开源音频数据库,Mozilla打造的语音数据库优势在于,其更切贴于日常使用环境,这一点与Siri或Alexa语音设备采集的音频样本一样。
Rudnicky表示:“从根本上说他们正在使用浏览器来收集数据,这意味着他们针对目标用户收集的数据将具有更多的代表性。比如说我坐在办公室里,就会使用在桌面环境下找到的麦克风,这样采集的音频具有环境代表性。”
拥有多种多样的演讲者和口音,加上数据集预期的规模,应该能够使Mozilla收集到的录音比现有的开源音频数据集价值更大,甚至能够与很多大公司内部的音频数据集相媲美。
“我们会尽可能地覆盖更多音频数据,”Henretty如是指出。