从"听话"到"懂话"：智能语音交互的进化

责任编辑：editor007 作者：CN314 |来源：企业网D1Net 2015-01-15 17:19:32 本文摘自：新浪科技

语音交互的进化历程

回顾人类发展历史，不难看出，随着人类不断进化，从最初通过手掌、肢体使用简单工具、传递简单信息，发展到控制发声并通过耳朵接收，形成了一个以语音为载体的快速信息传递通道和收发闭环，成为人类间最自然、最重要的信息交互手段。声波作为一种音频信号，和视频信号、无线电信号一样是，非接触方式传播，也是人类唯一可以不借助工具就可自由掌控的一种天然“无线”资源。

而且声波对接收指向性的要求更宽松，这个非常宝贵的特性会在很多场景下带来极大便利。特别是对于一些在视觉、触觉等方面存在障碍(如老年人、弱视、残障人士)或不适合(如儿童需要保护视力)的庞大特定人群，语音更是最佳的交互选择。

而作为这种功能在移动端延伸，手机相关的语音交互功能最早要追溯到十几年前的功能机时代。它最初是以语音拨号的形式来实现这种交互，当时以摩托罗拉、诺基亚为首的一批国外手机厂商，通过预先录制预存用户的语音样本，然后使用时由用户进行语音口述，比对预留样本，从而实现语音拨号的功能。

这项功能后续进行了进一步的发展，例如摩托罗拉在其A系列上从语音拨号进化到语音控制层面，就是通过语音能控制手机发短信、打开应用程序诸如音乐等。但是，这一阶段的语音交互技术有个致命的问题，就是准确性不高。因为它采用的是通过预存样本比对的技术来实现，这样的技术受限度很大，主要有以下三个：

A、受外界背景噪音干扰：因为是采用的样本音频分析对比，所以对来源音频的质量要求较高，如果来源音频背景噪音太严重，会造成与预留样本不符而比对失败。想想，你在一个安静的环境里录完音，然后在大街上去使用，这种成功率会高吗？

B、使用者发音前后不一干扰：

同样的道理，你预留的样本音频是健康时的，而使用时因为风寒感冒了，很可能会造成比对失败，这样也会影响成功率。

C、其它使用者无法使用：你的样本是你自己的，如果换成你的爱人，或者小孩，按照这种样本对比，就根本无法使用了。

以上这些因素，造成之前的手机语音功能识别率太低，如同鸡肋，所以也没有在手机中起到决定性的作用。

语音交互的新时代来临

进入到智能操作系统时代，手机、平板、可穿戴、智能家居、智能汽车等不断出现，各种业务、软件、应用也迅速普及，而且越来越多应用也开始引入语音功能，有助于培养用户使用习惯，语音交互迎来了春天般的新时代机遇。

据咨询公司统计和预测，近两年国内智能终端语音交互市场使用群体或将达到惊人的规模：

分析当前语音交互的热潮，主要具备了以下几个主要原因：

A、人工智能算法突破

前述我们讲的过去的语音识别主要原理是模式匹配法，即在训练阶段，用户将词汇表中的词依次说一遍，并且将其特征矢量作为模板存入模板库。在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。

而现在的技术突破方向是“机器学习”，通过语音识别声学模型训练，使用带预训练的多层神经网络，语音识别错误率可降低30%，是近20年来语音识别技术方面最快的进步。

B、大数据的灵活应用

随着及手机、平板、可穿戴等各种移动智能终端的普及应用，已经可以从多个渠道获取大量文本或语音方面的语料，这为语音识别中的语言模型和声学模型的训练提供了丰富的资源，使得构建通用大规模语言模型和声学模型成为可能。

而在语音识别中，训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一，但是语料的标注和分析需要长期的积累和沉淀，随着大数据时代的来临，大规模语料资源的积累成为现实并将提升到战略高度。

C、高速移动数据网络打通大动脉

2/3G时代，流量的限制使得语音交互技术无限制使用的条件不足，海量语音资料库累积较慢，限制了语音辨识与语义理解的提升；而如果局限于本地模式下，又缺乏大数据处理的支撑导致语音辨识率低，影响用户体验，使用频次下降，形成负反馈，就如同前十几年那种鸡肋的局面。

4G时代，手机网速大大提高，语音应用的频次和范围不断增加，海量语音资料库迅速增长；语音辨识准确率以及语音分析能力大大提升，而语音辨识精确度与语义理解能力的提升，又将进一步推动语音交互发展提升体验，形成正向反馈，带动语音交互应用更加丰富。

简单总结，就是人工算法实现功能上的智能化，大数据形成大量的声学模型，保障误别的成功率，而4G高速网络能讲样本快速上传并下载相应的识别结果，提升用户体验。从这个层面上讲，现在语音识别已经不仅仅是“听”这个层面上，更多的是朝听完之后“懂”的层面上发展，成为用户真正的助力帮手。

语音交互的未来

随着人类对智能设备的依赖和人机之间的交互日益频繁，原有的操控方式变得越来越复杂、效率低下，迫切需要诞生一种新的更简便的操作方式；而语音一旦成为主流的交互手段，可以做到各种设备指令统一、简洁，大大降低人类对智能设备操作的要求、节省人机互动的时间。

哪些人群会在语音交互的这股浪潮中得到益处？语音交互的智能化又能给行业带来什么样的新动向？

首先，随着智能设备和应用的影响逐渐扩大，用户群逐步向老龄人群、低龄人群、身体残障人群渗透扩散的趋势非常明显，而对这些新进入人群而言，原有的触控交互方式或许并不太适合，用户习惯也未形成，例如老年人视力下降、手指也不够灵活；低龄儿童还不能掌握手写等能力也不适合长时间看电子屏幕；弱视/盲人更希望接受语音信息和发出语音指令，等等，因此语音交互也更适合拓展智能设备新的用户人群。

其次，语音交互可能会成为继搜索引擎、浏览器、智能手机OS之后，第四代的入口。语音识别将使人机交互能够以人类最熟悉的方式进行，其优势以及价值一旦发挥出来，天然的交互入口起到导流作用，将对即时通讯、搜索、购物、LBS等垂直应用服务市场产生巨大的影响，而且语音交互将凌驾于搜索引擎、浏览器等其他应用入口之上，形成一个以语音交互技术为核心的全新应用生态链，前景极为看好，这也正是产业巨头纷纷在这一领域投入巨大资源的根本原因。

语音交互产业链的形成

当前，从整个产业链条来看，在语音交互技术领域，涌现出一大批优秀的中国企业，经过多年的积累，语音技术已不再是国际巨头一家独大的局面。如在核心技术研发环节，有小i机器人等智能机器人厂商，以及清华、中科院等人工智能技术研究院校和科研院所；人机交互技术及服务提供商，如科大讯飞、捷通华声、车音网等语音技术提供商及微信、QQ等平台服务商。在数据和内容提供商环节更是百花齐放，应用领域包括影视(百事通、优酷、土豆等)、音乐、餐饮(大众点评、订餐小秘书)、财经(新浪财经、东方财富网等)、天气(问天网)、航班(携程、去哪儿)、旅游(携程、驴妈妈)、导航(高德、凯立德等)、政府、行业知识库等细分行业；智能终端设备提供商中包括以中兴、联想、华为等为代表；智能电视领域有长虹、创维等智能电视提供商、机顶盒提供商，以及东方有线、百事通、中国电信IPTV以及机顶盒生产厂商、服务运营商等。

关键字：语音拨号特征矢量智能设备