当前位置:人工智能行业动态 → 正文

中国高校结合语音和面部数据让人工智能“察言观色” 准确率高达62%

责任编辑:zsheng |来源:企业网D1Net  2019-01-17 12:16:34 本文摘自:前瞻网

一些人工智能研究人员长期以来的一个目标是,开发出一种系统,可以仅根据人的语音和面部抽搐来对人的情绪进行分类。像Affectiva这样的公司正在朝着这一方向发力。该公司最近推出了一款产品,可以通过扫描驾驶员的面部和声音来监控他们的情绪。但由于语言和肌肉运动的细微差别,仍存在相当大的挑战。

不过,中国科学技术大学的研究人员声称已取得进展。本周在预印本服务器Arxiv.org上发表的一篇论文中,他们描述了一个人工智能系统,该系统能够在流行基准上以最高水平的精度识别一个人的情感状态。

“自动情感识别(AER)是一项具有挑战性的任务,因为它具有抽象的概念和多种情感表达方式。”他们写道, “受到人类认知过程的启发,自然而然地在AER中同时利用音频和视觉信息......整个管道可以在神经网络中完成。”

该团队的AI系统的一部分包括音频处理算法,通过语音频谱图(声音频率随时间变化的视觉展示)作为输入,帮助整个AI模型回归与情感最相关的区域。第二个组件通过两个计算层运行人脸视频帧:一个基本的人脸检测算法和三个“最先进的”人脸识别网络“微调”,使它们与“情绪相关”。这是一个比起听起来更棘手的事情 - 正如论文的作者所指出的,并非所有的框架都对情绪状态有同等作用,因此他们不得不实施一种能够突显重要框架的注意机制。

在从所有四种面部识别算法中提取特征(即,可测量的特征)之后,它们与语音特征融合以“深度捕捉”它们之间的关联,用于最终的情绪预测。这是最后一步。

为了“教会”人工智能模型对情绪进行分类,该团队输入了AFEW8.0提供的653视频和相应音频片段。AFEW8.0是一个电影和电视节目数据库,用于EmotiW2018的音视频子挑战。它坚持自己的观点,在383个样本的验证集中,成功地从7个选项中对情绪进行分类——“愤怒”、“厌恶”、“恐惧”、“快乐”、“中立”、“悲伤”和“惊讶”——准确率约为62.48%。此外,研究人员证明其视频帧分析受音频信号的影响;换句话说,人工智能系统在进行预测时考虑了语音和面部表情之间的关系。

也就是说,当模型与“厌恶”、“惊讶”和其他“弱”表情或容易与其他情绪混淆的情绪作斗争时,模型倾向于表现出“明显”特征的情绪,如“愤怒”、“快乐”和“中立”。尽管如此,它的性能几乎与之前使用五种视觉模型和两种音频模型的方法相当。

“与最先进的方法相比,”研究人员写道,“[我们]提出的方法可以用单一模型获得可比较的结果,在多个模型上取得新的里程碑。”

关键字:智能数据高校中国

本文摘自:前瞻网

x 中国高校结合语音和面部数据让人工智能“察言观色” 准确率高达62% 扫一扫
分享本文到朋友圈
当前位置:人工智能行业动态 → 正文

中国高校结合语音和面部数据让人工智能“察言观色” 准确率高达62%

责任编辑:zsheng |来源:企业网D1Net  2019-01-17 12:16:34 本文摘自:前瞻网

一些人工智能研究人员长期以来的一个目标是,开发出一种系统,可以仅根据人的语音和面部抽搐来对人的情绪进行分类。像Affectiva这样的公司正在朝着这一方向发力。该公司最近推出了一款产品,可以通过扫描驾驶员的面部和声音来监控他们的情绪。但由于语言和肌肉运动的细微差别,仍存在相当大的挑战。

不过,中国科学技术大学的研究人员声称已取得进展。本周在预印本服务器Arxiv.org上发表的一篇论文中,他们描述了一个人工智能系统,该系统能够在流行基准上以最高水平的精度识别一个人的情感状态。

“自动情感识别(AER)是一项具有挑战性的任务,因为它具有抽象的概念和多种情感表达方式。”他们写道, “受到人类认知过程的启发,自然而然地在AER中同时利用音频和视觉信息......整个管道可以在神经网络中完成。”

该团队的AI系统的一部分包括音频处理算法,通过语音频谱图(声音频率随时间变化的视觉展示)作为输入,帮助整个AI模型回归与情感最相关的区域。第二个组件通过两个计算层运行人脸视频帧:一个基本的人脸检测算法和三个“最先进的”人脸识别网络“微调”,使它们与“情绪相关”。这是一个比起听起来更棘手的事情 - 正如论文的作者所指出的,并非所有的框架都对情绪状态有同等作用,因此他们不得不实施一种能够突显重要框架的注意机制。

在从所有四种面部识别算法中提取特征(即,可测量的特征)之后,它们与语音特征融合以“深度捕捉”它们之间的关联,用于最终的情绪预测。这是最后一步。

为了“教会”人工智能模型对情绪进行分类,该团队输入了AFEW8.0提供的653视频和相应音频片段。AFEW8.0是一个电影和电视节目数据库,用于EmotiW2018的音视频子挑战。它坚持自己的观点,在383个样本的验证集中,成功地从7个选项中对情绪进行分类——“愤怒”、“厌恶”、“恐惧”、“快乐”、“中立”、“悲伤”和“惊讶”——准确率约为62.48%。此外,研究人员证明其视频帧分析受音频信号的影响;换句话说,人工智能系统在进行预测时考虑了语音和面部表情之间的关系。

也就是说,当模型与“厌恶”、“惊讶”和其他“弱”表情或容易与其他情绪混淆的情绪作斗争时,模型倾向于表现出“明显”特征的情绪,如“愤怒”、“快乐”和“中立”。尽管如此,它的性能几乎与之前使用五种视觉模型和两种音频模型的方法相当。

“与最先进的方法相比,”研究人员写道,“[我们]提出的方法可以用单一模型获得可比较的结果,在多个模型上取得新的里程碑。”

关键字:智能数据高校中国

本文摘自:前瞻网

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^