当前位置:新闻中心行业动态 → 正文

Google发力智能识别:Cloud Speech API正式发布

责任编辑:editor004 作者:Kent Weare |来源:企业网D1Net  2017-05-12 11:53:31 本文摘自:INFOQ

 Google在近期的博客帖子中,宣布它们的Cloud Speech API正式发布。Cloud Speech API允许开发人员添加预先训练好的机器学习模型,用于视频、图像和文本分析中的识别任务,并可实现动态翻译。Cloud Speech API曾于去年夏天以测试版发布。

Cloud Speech API使用了基于神经网络的语音识别技术,该技术源自于Google自身的语音产品Google Assistant和Google Home。Cloud Speech API服务当前支持超过80种语言及其变种。它采用两种语音输入模式:

实时数据流模式,在用户说话的同时,就以提示的方式给出说话的文本内容。 批处理模式,实现将录制的语音转录为文本的功能。

通过对背景噪声的过滤,该服务在有噪音的环境中也能正常工作。此外,通过在词典中新添单词或短语,该服务也可以从单词和短语提示中进行学习。

Google在正式发布中添加了一些新特性,并从如下方面改进了性能:

提高了长语音转写为文本的准确性; 更快的处理速度,在批处理场景中比前期版本要快三倍; 扩展了支持的文件格式,现在支持WAV、Opus和Speex。

在近期的Google Cloud Next 2017大会上,Google的产品经理Dan Aharon做了一个演讲,其中介绍了Cloud Speech API的一些用例,包括使用移动设备的人机交互,以及Web和IoT应用。该服务也已用于生成客户服务业务中的语音分析。

  图片来源: https://www.youtube.com/watch?v=7w_w01EGC7U的截图。

Aharon还探讨了推动语音应用发展背后的原因,以及为什么说语音应用现在达到了一个拐点:

语音更快速(可达每分钟150个单词,输入只能达到每分钟20到40个单词); 易于应用(无需操作各层的用户界面); 更便捷(操作无需占用双手); 现在超过20%的Android应用搜索是使用语音完成的; Google Home、Google Pixel和Amazon Echo等“随时倾听”(Always Listening)设备正成为主流应用。

Google还演示了一些用户场景,以此展现了Cloud Speech API的功能。给出的第一个例子是一个名为“Azar”的移动设备上的聊天应用。用户可以使用Azar与他人开展实时视频聊天。Azar不仅提供视频流和音频流,用户还可以选取语言进行语音转录。迄今为止,Azar已实现了超过150亿次的配对聊天,具备了大规模提供服务的能力。

  图片来源: https://www.youtube.com/watch?v=7w_w01EGC7U的截图。

Google演示的另一个用例关注的是客户服务。现在很多企业在通过电话提供客户服务时,首先会给出一个提示,告知用户为实现满意的客户服务,之后进行的对话将会被录音。但是企业是如何处理这些录音数据的?InteractiveTel的CTO Gary Graves指出,通常只有在与客户发生争执时才会复审这些录音。但是在Graves看来,这种做法会令汽车经销商等企业失去不少商机:

不仅可使我们的汽车经销商客户完成更多销售量,而且会转变工作心态,因为经销商中的每个员工都要负起责任。经销商需要部署对记录或监控的解决方案,并且让员工知道已部署了这样的方案。但是目前对信息的使用是响应式的,即只有在存在问题时才会借助于这些信息。如果使用了Cloud Speech服务,就可以从这些对话信息中挖掘出可用的情报,经销商可以授权销售人员提供更主动的服务,提升客户服务的层级。

InteractiveTel的产品为汽车经销商提供了对通话进行转录和情感分析的解决方案,可以将实时进行的电话通话提交使用了Google Speech API的InteractiveTel平台。由此,可为汽车经销商的销售团队创建切实可行的问题洞察,并根据每次通话确定客户的情感。

关键字:GoogleSpeech

本文摘自:INFOQ

x Google发力智能识别:Cloud Speech API正式发布 扫一扫
分享本文到朋友圈
当前位置:新闻中心行业动态 → 正文

Google发力智能识别:Cloud Speech API正式发布

责任编辑:editor004 作者:Kent Weare |来源:企业网D1Net  2017-05-12 11:53:31 本文摘自:INFOQ

 Google在近期的博客帖子中,宣布它们的Cloud Speech API正式发布。Cloud Speech API允许开发人员添加预先训练好的机器学习模型,用于视频、图像和文本分析中的识别任务,并可实现动态翻译。Cloud Speech API曾于去年夏天以测试版发布。

Cloud Speech API使用了基于神经网络的语音识别技术,该技术源自于Google自身的语音产品Google Assistant和Google Home。Cloud Speech API服务当前支持超过80种语言及其变种。它采用两种语音输入模式:

实时数据流模式,在用户说话的同时,就以提示的方式给出说话的文本内容。 批处理模式,实现将录制的语音转录为文本的功能。

通过对背景噪声的过滤,该服务在有噪音的环境中也能正常工作。此外,通过在词典中新添单词或短语,该服务也可以从单词和短语提示中进行学习。

Google在正式发布中添加了一些新特性,并从如下方面改进了性能:

提高了长语音转写为文本的准确性; 更快的处理速度,在批处理场景中比前期版本要快三倍; 扩展了支持的文件格式,现在支持WAV、Opus和Speex。

在近期的Google Cloud Next 2017大会上,Google的产品经理Dan Aharon做了一个演讲,其中介绍了Cloud Speech API的一些用例,包括使用移动设备的人机交互,以及Web和IoT应用。该服务也已用于生成客户服务业务中的语音分析。

  图片来源: https://www.youtube.com/watch?v=7w_w01EGC7U的截图。

Aharon还探讨了推动语音应用发展背后的原因,以及为什么说语音应用现在达到了一个拐点:

语音更快速(可达每分钟150个单词,输入只能达到每分钟20到40个单词); 易于应用(无需操作各层的用户界面); 更便捷(操作无需占用双手); 现在超过20%的Android应用搜索是使用语音完成的; Google Home、Google Pixel和Amazon Echo等“随时倾听”(Always Listening)设备正成为主流应用。

Google还演示了一些用户场景,以此展现了Cloud Speech API的功能。给出的第一个例子是一个名为“Azar”的移动设备上的聊天应用。用户可以使用Azar与他人开展实时视频聊天。Azar不仅提供视频流和音频流,用户还可以选取语言进行语音转录。迄今为止,Azar已实现了超过150亿次的配对聊天,具备了大规模提供服务的能力。

  图片来源: https://www.youtube.com/watch?v=7w_w01EGC7U的截图。

Google演示的另一个用例关注的是客户服务。现在很多企业在通过电话提供客户服务时,首先会给出一个提示,告知用户为实现满意的客户服务,之后进行的对话将会被录音。但是企业是如何处理这些录音数据的?InteractiveTel的CTO Gary Graves指出,通常只有在与客户发生争执时才会复审这些录音。但是在Graves看来,这种做法会令汽车经销商等企业失去不少商机:

不仅可使我们的汽车经销商客户完成更多销售量,而且会转变工作心态,因为经销商中的每个员工都要负起责任。经销商需要部署对记录或监控的解决方案,并且让员工知道已部署了这样的方案。但是目前对信息的使用是响应式的,即只有在存在问题时才会借助于这些信息。如果使用了Cloud Speech服务,就可以从这些对话信息中挖掘出可用的情报,经销商可以授权销售人员提供更主动的服务,提升客户服务的层级。

InteractiveTel的产品为汽车经销商提供了对通话进行转录和情感分析的解决方案,可以将实时进行的电话通话提交使用了Google Speech API的InteractiveTel平台。由此,可为汽车经销商的销售团队创建切实可行的问题洞察,并根据每次通话确定客户的情感。

关键字:GoogleSpeech

本文摘自:INFOQ

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^