当前位置:统一通信/协作行业动态 → 正文

从"听话"到"懂话":智能语音交互的进化

责任编辑:editor007 作者:CN314 |来源:企业网D1Net  2015-01-15 17:19:32 本文摘自:新浪科技

语音交互的进化历程

回顾人类发展历史,不难看出,随着人类不断进化,从最初通过手掌、肢体使用简单工具、传递简单信息,发展到控制发声并通过耳朵接收,形成了一个以语音为载体的快速信息传递通道和收发闭环,成为人类间最自然、最重要的信息交互手段。声波作为一种音频信号,和视频信号、无线电信号一样是,非接触方式传播,也是人类唯一可以不借助工具就可自由掌控的一种天然“无线”资源。

而且声波对接收指向性的要求更宽松,这个非常宝贵的特性会在很多场景下带来极大便利。特别是对于一些在视觉、触觉等方面存在障碍(如老年人、弱视、残障人士)或不适合(如儿童需要保护视力)的庞大特定人群,语音更是最佳的交互选择。

而作为这种功能在移动端延伸,手机相关的语音交互功能最早要追溯到十几年前的功能机时代。它最初是以语音拨号的形式来实现这种交互,当时以摩托罗拉、诺基亚为首的一批国外手机厂商,通过预先录制预存用户的语音样本,然后使用时由用户进行语音口述,比对预留样本,从而实现语音拨号的功能。

这项功能后续进行了进一步的发展,例如摩托罗拉在其A系列上从语音拨号进化到语音控制层面,就是通过语音能控制手机发短信、打开应用程序诸如音乐等。但是,这一阶段的语音交互技术有个致命的问题,就是准确性不高。因为它采用的是通过预存样本比对的技术来实现,这样的技术受限度很大,主要有以下三个:

A、受外界背景噪音干扰:因为是采用的样本音频分析对比,所以对来源音频的质量要求较高,如果来源音频背景噪音太严重,会造成与预留样本不符而比对失败。想想,你在一个安静的环境里录完音,然后在大街上去使用,这种成功率会高吗?

B、使用者发音前后不一干扰:

同样的道理,你预留的样本音频是健康时的,而使用时因为风寒感冒了,很可能会造成比对失败,这样也会影响成功率。

C、其它使用者无法使用:你的样本是你自己的,如果换成你的爱人,或者小孩,按照这种样本对比,就根本无法使用了。

以上这些因素,造成之前的手机语音功能识别率太低,如同鸡肋,所以也没有在手机中起到决定性的作用。

语音交互的新时代来临

进入到智能操作系统时代,手机、平板、可穿戴、智能家居、智能汽车等不断出现,各种业务、软件、应用也迅速普及,而且越来越多应用也开始引入语音功能,有助于培养用户使用习惯,语音交互迎来了春天般的新时代机遇。

据咨询公司统计和预测,近两年国内智能终端语音交互市场使用群体或将达到惊人的规模:

分析当前语音交互的热潮,主要具备了以下几个主要原因:

A、人工智能算法突破

前述我们讲的过去的语音识别主要原理是模式匹配法,即在训练阶段,用户将词汇表中的词依次说一遍,并且将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

而现在的技术突破方向是“机器学习”,通过语音识别声学模型训练,使用带预训练的多层神经网络,语音识别错误率可降低30%,是近20年来语音识别技术方面最快的进步。

B、大数据的灵活应用

随着及手机、平板、可穿戴等各种移动智能终端的普及应用,已经可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。

而在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累成为现实并将提升到战略高度。

C、高速移动数据网络打通大动脉

2/3G时代,流量的限制使得语音交互技术无限制使用的条件不足,海量语音资料库累积较慢,限制了语音辨识与语义理解的提升;而如果局限于本地模式下,又缺乏大数据处理的支撑导致语音辨识率低,影响用户体验,使用频次下降,形成负反馈,就如同前十几年那种鸡肋的局面。

4G时代,手机网速大大提高,语音应用的频次和范围不断增加,海量语音资料库迅速增长;语音辨识准确率以及语音分析能力大大提升,而语音辨识精确度与语义理解能力的提升,又将进一步推动语音交互发展提升体验,形成正向反馈,带动语音交互应用更加丰富。

简单总结,就是人工算法实现功能上的智能化,大数据形成大量的声学模型,保障误别的成功率,而4G高速网络能讲样本快速上传并下载相应的识别结果,提升用户体验。从这个层面上讲,现在语音识别已经不仅仅是“听”这个层面上,更多的是朝听完之后“懂”的层面上发展,成为用户真正的助力帮手。

语音交互的未来

随着人类对智能设备的依赖和人机之间的交互日益频繁,原有的操控方式变得越来越复杂、效率低下,迫切需要诞生一种新的更简便的操作方式;而语音一旦成为主流的交互手段,可以做到各种设备指令统一、简洁,大大降低人类对智能设备操作的要求、节省人机互动的时间。

哪些人群会在语音交互的这股浪潮中得到益处?语音交互的智能化又能给行业带来什么样的新动向?

首先,随着智能设备和应用的影响逐渐扩大,用户群逐步向老龄人群、低龄人群、身体残障人群渗透扩散的趋势非常明显,而对这些新进入人群而言,原有的触控交互方式或许并不太适合,用户习惯也未形成,例如老年人视力下降、手指也不够灵活;低龄儿童还不能掌握手写等能力也不适合长时间看电子屏幕;弱视/盲人更希望接受语音信息和发出语音指令,等等,因此语音交互也更适合拓展智能设备新的用户人群。

其次,语音交互可能会成为继搜索引擎、浏览器、智能手机OS之后,第四代的入口。语音识别将使人机交互能够以人类最熟悉的方式进行,其优势以及价值一旦发挥出来,天然的交互入口起到导流作用,将对即时通讯、搜索、购物、LBS等垂直应用服务市场产生巨大的影响,而且语音交互将凌驾于搜索引擎、浏览器等其他应用入口之上,形成一个以语音交互技术为核心的全新应用生态链,前景极为看好,这也正是产业巨头纷纷在这一领域投入巨大资源的根本原因。

语音交互产业链的形成

当前,从整个产业链条来看,在语音交互技术领域,涌现出一大批优秀的中国企业,经过多年的积累,语音技术已不再是国际巨头一家独大的局面。如在核心技术研发环节,有小i机器人等智能机器人厂商,以及清华、中科院等人工智能技术研究院校和科研院所;人机交互技术及服务提供商,如科大讯飞、捷通华声、车音网等语音技术提供商及微信、QQ等平台服务商。在数据和内容提供商环节更是百花齐放,应用领域包括影视(百事通、优酷、土豆等)、音乐、餐饮(大众点评、订餐小秘书)、财经(新浪财经、东方财富网等)、天气(问天网)、航班(携程、去哪儿)、旅游(携程、驴妈妈)、导航(高德、凯立德等)、政府、行业知识库等细分行业;智能终端设备提供商中包括以中兴、联想、华为等为代表;智能电视领域有长虹、创维等智能电视提供商、机顶盒提供商,以及东方有线、百事通、中国电信IPTV以及机顶盒生产厂商、服务运营商等。

关键字:语音拨号特征矢量智能设备

本文摘自:新浪科技

x 从"听话"到"懂话":智能语音交互的进化 扫一扫
分享本文到朋友圈
当前位置:统一通信/协作行业动态 → 正文

从"听话"到"懂话":智能语音交互的进化

责任编辑:editor007 作者:CN314 |来源:企业网D1Net  2015-01-15 17:19:32 本文摘自:新浪科技

语音交互的进化历程

回顾人类发展历史,不难看出,随着人类不断进化,从最初通过手掌、肢体使用简单工具、传递简单信息,发展到控制发声并通过耳朵接收,形成了一个以语音为载体的快速信息传递通道和收发闭环,成为人类间最自然、最重要的信息交互手段。声波作为一种音频信号,和视频信号、无线电信号一样是,非接触方式传播,也是人类唯一可以不借助工具就可自由掌控的一种天然“无线”资源。

而且声波对接收指向性的要求更宽松,这个非常宝贵的特性会在很多场景下带来极大便利。特别是对于一些在视觉、触觉等方面存在障碍(如老年人、弱视、残障人士)或不适合(如儿童需要保护视力)的庞大特定人群,语音更是最佳的交互选择。

而作为这种功能在移动端延伸,手机相关的语音交互功能最早要追溯到十几年前的功能机时代。它最初是以语音拨号的形式来实现这种交互,当时以摩托罗拉、诺基亚为首的一批国外手机厂商,通过预先录制预存用户的语音样本,然后使用时由用户进行语音口述,比对预留样本,从而实现语音拨号的功能。

这项功能后续进行了进一步的发展,例如摩托罗拉在其A系列上从语音拨号进化到语音控制层面,就是通过语音能控制手机发短信、打开应用程序诸如音乐等。但是,这一阶段的语音交互技术有个致命的问题,就是准确性不高。因为它采用的是通过预存样本比对的技术来实现,这样的技术受限度很大,主要有以下三个:

A、受外界背景噪音干扰:因为是采用的样本音频分析对比,所以对来源音频的质量要求较高,如果来源音频背景噪音太严重,会造成与预留样本不符而比对失败。想想,你在一个安静的环境里录完音,然后在大街上去使用,这种成功率会高吗?

B、使用者发音前后不一干扰:

同样的道理,你预留的样本音频是健康时的,而使用时因为风寒感冒了,很可能会造成比对失败,这样也会影响成功率。

C、其它使用者无法使用:你的样本是你自己的,如果换成你的爱人,或者小孩,按照这种样本对比,就根本无法使用了。

以上这些因素,造成之前的手机语音功能识别率太低,如同鸡肋,所以也没有在手机中起到决定性的作用。

语音交互的新时代来临

进入到智能操作系统时代,手机、平板、可穿戴、智能家居、智能汽车等不断出现,各种业务、软件、应用也迅速普及,而且越来越多应用也开始引入语音功能,有助于培养用户使用习惯,语音交互迎来了春天般的新时代机遇。

据咨询公司统计和预测,近两年国内智能终端语音交互市场使用群体或将达到惊人的规模:

分析当前语音交互的热潮,主要具备了以下几个主要原因:

A、人工智能算法突破

前述我们讲的过去的语音识别主要原理是模式匹配法,即在训练阶段,用户将词汇表中的词依次说一遍,并且将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

而现在的技术突破方向是“机器学习”,通过语音识别声学模型训练,使用带预训练的多层神经网络,语音识别错误率可降低30%,是近20年来语音识别技术方面最快的进步。

B、大数据的灵活应用

随着及手机、平板、可穿戴等各种移动智能终端的普及应用,已经可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。

而在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累成为现实并将提升到战略高度。

C、高速移动数据网络打通大动脉

2/3G时代,流量的限制使得语音交互技术无限制使用的条件不足,海量语音资料库累积较慢,限制了语音辨识与语义理解的提升;而如果局限于本地模式下,又缺乏大数据处理的支撑导致语音辨识率低,影响用户体验,使用频次下降,形成负反馈,就如同前十几年那种鸡肋的局面。

4G时代,手机网速大大提高,语音应用的频次和范围不断增加,海量语音资料库迅速增长;语音辨识准确率以及语音分析能力大大提升,而语音辨识精确度与语义理解能力的提升,又将进一步推动语音交互发展提升体验,形成正向反馈,带动语音交互应用更加丰富。

简单总结,就是人工算法实现功能上的智能化,大数据形成大量的声学模型,保障误别的成功率,而4G高速网络能讲样本快速上传并下载相应的识别结果,提升用户体验。从这个层面上讲,现在语音识别已经不仅仅是“听”这个层面上,更多的是朝听完之后“懂”的层面上发展,成为用户真正的助力帮手。

语音交互的未来

随着人类对智能设备的依赖和人机之间的交互日益频繁,原有的操控方式变得越来越复杂、效率低下,迫切需要诞生一种新的更简便的操作方式;而语音一旦成为主流的交互手段,可以做到各种设备指令统一、简洁,大大降低人类对智能设备操作的要求、节省人机互动的时间。

哪些人群会在语音交互的这股浪潮中得到益处?语音交互的智能化又能给行业带来什么样的新动向?

首先,随着智能设备和应用的影响逐渐扩大,用户群逐步向老龄人群、低龄人群、身体残障人群渗透扩散的趋势非常明显,而对这些新进入人群而言,原有的触控交互方式或许并不太适合,用户习惯也未形成,例如老年人视力下降、手指也不够灵活;低龄儿童还不能掌握手写等能力也不适合长时间看电子屏幕;弱视/盲人更希望接受语音信息和发出语音指令,等等,因此语音交互也更适合拓展智能设备新的用户人群。

其次,语音交互可能会成为继搜索引擎、浏览器、智能手机OS之后,第四代的入口。语音识别将使人机交互能够以人类最熟悉的方式进行,其优势以及价值一旦发挥出来,天然的交互入口起到导流作用,将对即时通讯、搜索、购物、LBS等垂直应用服务市场产生巨大的影响,而且语音交互将凌驾于搜索引擎、浏览器等其他应用入口之上,形成一个以语音交互技术为核心的全新应用生态链,前景极为看好,这也正是产业巨头纷纷在这一领域投入巨大资源的根本原因。

语音交互产业链的形成

当前,从整个产业链条来看,在语音交互技术领域,涌现出一大批优秀的中国企业,经过多年的积累,语音技术已不再是国际巨头一家独大的局面。如在核心技术研发环节,有小i机器人等智能机器人厂商,以及清华、中科院等人工智能技术研究院校和科研院所;人机交互技术及服务提供商,如科大讯飞、捷通华声、车音网等语音技术提供商及微信、QQ等平台服务商。在数据和内容提供商环节更是百花齐放,应用领域包括影视(百事通、优酷、土豆等)、音乐、餐饮(大众点评、订餐小秘书)、财经(新浪财经、东方财富网等)、天气(问天网)、航班(携程、去哪儿)、旅游(携程、驴妈妈)、导航(高德、凯立德等)、政府、行业知识库等细分行业;智能终端设备提供商中包括以中兴、联想、华为等为代表;智能电视领域有长虹、创维等智能电视提供商、机顶盒提供商,以及东方有线、百事通、中国电信IPTV以及机顶盒生产厂商、服务运营商等。

关键字:语音拨号特征矢量智能设备

本文摘自:新浪科技

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^