企业网D1Net&运营与增值D1Com联合报道
导语:苹果语音处理芯片提供商Audience和Siri语音助手技术提供商Nuance,互联网豪强阿里、百度、高德如今都成为中兴的座上客,共谋以“声控方式”,开启智能手机交互体验的新时代。
由中兴倡导的智慧语音联盟各方成员签署联盟成立倡议书
后苹果时代
如今,手机界创新已显乏力。Zealer王自如在去年iPhone5s评测时就能将iPhone6可能推出的光学防抖、更大屏幕、64位应用、可穿戴设备几项新增能力,猜了个八九不离十。是神预测吗?笔者认为,王自如的观察功力确实不凡,同时,智能手机的可发展空间已经极度清晰化也是不争事实。所以,王自如能够如此神准预测iPhone6功能并不意外。
这里我们就要问一个问题,以iPhone6为代表的智能手机的未来演化路线是什么?是在性能之路上无止尽的攀升吗?是致力于达到切菜刀一般“锋利”的机身厚度吗?还是重新攀登可穿戴设备的科技树?其实,回溯智能手机发展史,我们会发现这样一条规律:
每隔一段时间,手机会产生革命性的提升。此时,试图走优化之路往往行不通。用户需要的是全新的刺激和手机操控体验。
中兴曾学忠在智慧语音联盟成立发布会上曾介绍说,手机经历了如下几个演化过程:
1、Motorola时代:满足我的时代。
Motorola,作为蜂窝电话的发明者,开启了移动电话的时代。这个时代,它满足了人们对移动通话的需求。
2、Nokia:吸引我的时代。
Nokia,伟大的芬兰巨人,是功能手机时代的真正王者。它让人们意识到,手机不仅可以用于通话,还可以很(za)好(he)玩(tao)。
3、Apple:改变我的时代。
Apple,暴君&天才的结合体乔布斯,用他心中的完美,重新定义了手机的交互规则。让触摸操控成为智能手机的标准配置,让尊重用户体验成为智能手机甚至整个消费电子业的黄金定律。在这个时代,Apple为人们带来了此前绝对料想不到的手机使用体验。
可惜,以上皆是过去。
此刻,眼看着由苹果领军的,以触摸交互为代表智能手机进入创新迟缓期,我们不禁要问,下一代能给予用户极大惊喜的智能手机会是怎样?
可穿戴设备是一个方向,手机整合智能家居是一个方向,手机与车载应用整合也是一个方向。而笔者在这里将展示的是,一条并不为人重视却极具潜力的方向——赋予手机语音交互能力和人工智能的“智慧语音”。
它,可能成为手机未来的发展方向吗?
一只活的手机
哇,抓到一只活的手机——它并不是被变形金刚里的火种赋予了生命。却能人性化地与你语音交互并执行指令。可能吗?眼见为实(无法观看视频的读者点击这里):
视频中展现的可以与你语音对话的手机很酷,很智能,有没有?
你想不想让你的手机、你家的电器设备都能像你的朋友一样听懂你的需求,并按照你的指示作出正确的反应,那该是多么美妙的体验。
显然,在科幻电影中常见的脑电波交流实现之前,没有比语音更合适的人机交互方式了。因为语言沟通是我们最熟悉,也是最自然的交流方式。这也是如今语音识别科学炙手可热的原因——哪怕视线跟踪,手势识别这一类前沿技术亦不可与前者同日而语。
当然,人机交互自计算机诞生以来都不是件容易的事情。回溯当年,从最早的计算机早期的面板开关,显示灯和穿孔纸带等交互装置,到80、90年代的命令行、窗口图形界面,再到苹果手机率先推出触摸屏,人类始终在不断寻找简化人机交互难度的工具。但是自始至终,都是人类在适应工具,而非机器智能化地响应人类的需求。
不过在2006年,神经网络技术获得突破性进展之后,阻碍人机语音交互的最后一块屏障破碎了,此时,前方坦途一片。
智慧语音之春
神经网络技术是语音交互和人工智能的最核心技术。
自神经网络算法1940年提出以来,曾一度举步维艰。此后数十年中,也只是在1968年获得一定进展。好在经过漫长的发展,到了2006年,神经网络算法终于获得突破性进展。此时,它第一次具备了优质的特征学习能力。如同呱呱坠地的婴儿,开始了它快速成长的旅途。
此后,在各基于神经网络技术的实践项目中相继传出一些喜讯:
2012年,基于神经网络技术构建的Google“谷歌大脑”在没有获得任何知识的前提下从一千多万Youtube照片中正确识别出“猫”这个物种。
2013年,中兴在自由品牌手机中推出的“语音驾驶助手”应用,实现了90%的正确语音识别率。
2014年,Facebook“深度脸”项目,在比对两张人脸是否是一个人的实验中,实现了99%的精度突破,与之相比,人类仅有97.5%的平均识别率。
2014年,微软推出的人工智能小冰,基于狗类照片实现了99%的品种识别率。
不可否认,作为一种通用技术,神经网络技术正在改变我们的生活。也许不远的未来,能够突破图灵测试挑战(图灵测试源自计算机先驱图灵,其内容是,如果电脑能在5分钟内回答由人类测试者提出一系列问题,且其超过30%的回答让测试者误认为是人类所答,则电脑通过测试)的人工智能即将批量面世。
此时,对于智慧语音而言,技术已经不是问题。在可以预见的未来,人机语音交互的识别率将不断提高,机器将具备人的情感,与我们进行人性化地沟通,并利用各类智能引擎,帮助我们解决难题。
前文视频中提到的智慧语音应用将全然不成问题,甚至其能力将超乎我们想像。正如我们确信机器智能终将超越人类一般,手机,也将真正成为“口袋里的老爷爷(网络小说常见梗,指主角幸运遇到的,无所不知、无所不能,并能隐藏在主角身边不被察觉的强力帮手,其身份往往是老爷爷)”那样强力的助手。
中兴的布局
此时,我们再看中兴对智慧语音联盟的布局就非常清晰。
Audience,国际领先的语音处理芯片提供商。Nuance,国际领先的语音识别解决方案提供商。有意思的是,两者同样是(或曾经是)苹果语音降噪及Siri技术提供商。
在两者协助下,中兴将会把其品牌手机中现有的“语音助手”和“驾驶助手”两款应用的语音识别能力进一步升级,直至发展出真正的智慧语音。论之详情,我们可以看看中兴对智慧语音发展的计划表:
2013年9月,中兴首次推出了可以基于语音交互技术的“驾驶助手”。
2014年4月,中兴推出了系统级语音方案,与此同时,“星星1号”手机用户已经可以享受全新的“语音唤醒”的体验。
2015年6月,中兴计划将语音操控能力延伸至整个系统。此时,用户将可以使用语音指令完成一切常用手机操作和控制。
2015年12月,中兴将推出“智慧语音”系统,此时,手机或将不仅是个能与用户对话,简单执行指令的“助手”,而成为具备一定人工智能能力的小伙伴。
需要注意的是,百度、阿里、高德等互联网巨头企业同样加入了本次智慧语音联盟。如本次活动中百度发言人所言,“随着智慧语音技术的发展,语音将成为更便捷的移动互联网(输入)入口。如此先机不得不察。”
于是,从第一流智慧语音芯片和技术提供商,到全球Top5手机终端制造商,再到国内最强的互联网公司组成的强悍团队,在此抱团并将开启它们在智慧语音领域的探索之旅。
它们能改变未来吗?
它们能颠覆乔布斯定义的手机“触摸交互”时代,并开启手机“声控交互”的新纪元吗?
结语:
尽管未来依然充满变数,但是可以肯定的是,智慧语音联盟各方将从中受益无穷。基于神经网络技术的语音识别能力发展需要大量样本训练方可愈发成熟,Nuance将从中受益,并进一步加强在中国市场的影响力。Audience携手中兴这样的千万量级手机制造商,将有望进一步提升性能,降低语音芯片成本和能耗。百度、阿里、高德,则提前预定了移动互联网的下一个潜在入口。至于中兴,则有望成为下一个苹果,为智能手机市场带来预见未来的颠覆式产品。