当前位置:大数据业界动态 → 正文

专注于场景大数据,希尔贝壳为客户提供垂直精准的数据定制服务

责任编辑:editor007 作者:都保杰 |来源:企业网D1Net  2017-09-04 20:20:51 本文摘自:猎云网

随着AI商业化的演进,现在做人工智能产品和服务的公司越来越多了,谈及人工智能就少不了讨论算法和数据的关系,在业内人士看来,实际应用过程中很多时候数据比算法显得更加重要,因为算法的“好坏”在没有大量有效数据的支撑下是没有意义的,很多算法得到的结果的质量完全取决于其和真实数据的拟合程度。

于是,在人工智能产业链上诞生了许多专门做数据的公司,希尔贝壳也是一家数据服务商,公司注册成立于2017年4月,算是刚刚起步,面对市场竞争,这家公司和其他数据公司相比有什么特别之处呢?

希尔贝壳创始人兼CEO卜辉介绍说:“目前人工智能数据服务商,基本上是以提供人力服务为主而技术辅助和方案设计能力有限。而希尔贝壳可以从参与客户的数据制作方案开始,我们知道怎么做才能够让客户得到最合理最有价值的数据,以及落地产品怎么用好这些数据,我们还会利用一些技术手段对数据做测试,去发现数据是否存在问题,这两个事情是一般基础数据服务商做不到的。”

插图

制作一套有价值的数据是有其科学性的,人工智能行业目前存在的痛点性问题和刚性需求就是,很多初创型AI公司由于数据经验不足,一套数据对自己的算法是不是真正有价值,对算法是不是会有提升也是疑惑的。而传统数据服务商本身没有提供数据制作方案的能力。数据工作是不可复的,一旦数据采集完成,你只能用这个数据或者重新做数据,时间不可回流的,对于企业来说可能意味着失去宝贵的市场机会。

据悉,卜辉本人是韩国高丽大学硕士毕业,在大学语音信息处理实验室期间一直在做语音识别方向的研究,有过半年研究员的经历。2014年初,国内人工智能大潮逐渐兴起,他选择回国,之后进入了中国大数据交易及服务行业第一家挂牌新三板的企业:数据堂,在数据堂工作了两年多时间,主要工作内容是策划人工智能大数据制作方案,尤其是在语音数据这个领域。2016年底他选择自己出来创业,融合自身的技术优势以及数据设计方案的经验,成立了希尔贝壳。

“希尔贝壳的商业模式是分阶段的呈现,现有的模式就是针对于场景语音大数据,场景语音大数据会涉及到智能家居场景,智能车载场景以及其他场景,我们也有几款自己的数据产品,比如说智能家居的语音数据产品,智能车载的以及一些基础的中文普通话的数据产品,我们也会帮客户去定制一些场景的大数据。同时我们还会不断开源一些有市场和研发价值的数据出来,例如在今年7月份开源的aishell中文普通话精标数据集,我们把数据放到了开源ASR系统KALDI里,让更多的人能进入语音识别这个领域去学习、研究。”

插图

据了解,希尔贝壳的数据产品目前以语音数据为主,主要涵盖:智能家居、智能车载、智能机器人、基础数据、开源数据五方面。现有智能家居场景语音数据录音时长1800-2100小时;智能车载语音数据录音时长750小时;智能机器人语音数据录音时长:21-25小时;中文普通话语音数据录音时长1250小时;基于kaldi的中文普通话开源语音数据库录音时长178小时。针对语音识别的研究人员以及一些新创业的AI公司而言,这些数据虽然量不够大但会是一个起步的助力。

核心技术方面,希尔贝壳拥有自己的一套语音识别引擎,自然语言处理系统,以及发音词典的生成模型等,针对数据行业存在的问题希尔贝壳研发了4套系统来用智能辅助代替大量人工:语音数据源质量评测系统,用来评测语音信号幅度、噪音、转写错误率判定、音素平衡校准。语音自动转写系统,支持普通话和英文语音,减少人工辅助;场景数据集测试系统,支持远场数据集加噪、多距离数据混响性能测试,支持车载数据集与驾驶条件下环境相符度测试;音频检索系统,辅助语音数据归类。

卜辉说:“第一我们会逐渐用技术手段去减少人工的成本,第二让数据更有价值,比如说,我们用自有的技术去提前体验做好的数据,帮助客户提前预知数据产品的错误和BUG在哪里,我们去改正去修补,让这个数据的价值体现在客户使用之前,而不是客户使用之后才发现一些问题;第三个服务方向,我们正在尝试新一代的人工智能大数据制作方案和制作方法,目前来说基本上在语音识别、图像识别、自然语言处理都是很单向的,我们会尝试多模态的数据,多种融合的数据。”

插图

多模态数据将有利于辅助机器人更智能的去判断问题,而不是只停留在语音、图像、文本的识别层面,单个领域的识别率可能都非常高,但是这三项技术并连起来会是什么样的结果,会是什么样的数据形态展现,正是多模态数据要研究的方向。

希尔贝壳前期落地的盈利模式是把自身的数据制作方案和数据去变现,把握客户的精准需求,比如说定位到智能家居场景下等。卜辉透露公司现阶段靠数据和方案已经成功变现了,7月份刚走上运营正轨,公司的商业1.0计划起步还算稳健。

“我们团队的目标是要打造人工智能大数据和技术的创新变革,我们要以一个革命者去做这个事情。”卜辉总结说。

据悉,希尔贝壳目前北京总部有8人,负责商务、产品、技术方案等,非京的地方团队目前约有20余人主要负责数据采集和标注。希尔贝壳目前正在筹备天使轮融资,希望天使投资方具备AI行业背景,比如投资过机器人公司或者投资过AI技术解决方案公司等。

产品:场景化的数据产品+数据定制方案

公司:北京希尔贝壳科技有限公司

网址:http://www.aishelltech.com

关键字:希尔贝壳定制服务

本文摘自:猎云网

x 专注于场景大数据,希尔贝壳为客户提供垂直精准的数据定制服务 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

专注于场景大数据,希尔贝壳为客户提供垂直精准的数据定制服务

责任编辑:editor007 作者:都保杰 |来源:企业网D1Net  2017-09-04 20:20:51 本文摘自:猎云网

随着AI商业化的演进,现在做人工智能产品和服务的公司越来越多了,谈及人工智能就少不了讨论算法和数据的关系,在业内人士看来,实际应用过程中很多时候数据比算法显得更加重要,因为算法的“好坏”在没有大量有效数据的支撑下是没有意义的,很多算法得到的结果的质量完全取决于其和真实数据的拟合程度。

于是,在人工智能产业链上诞生了许多专门做数据的公司,希尔贝壳也是一家数据服务商,公司注册成立于2017年4月,算是刚刚起步,面对市场竞争,这家公司和其他数据公司相比有什么特别之处呢?

希尔贝壳创始人兼CEO卜辉介绍说:“目前人工智能数据服务商,基本上是以提供人力服务为主而技术辅助和方案设计能力有限。而希尔贝壳可以从参与客户的数据制作方案开始,我们知道怎么做才能够让客户得到最合理最有价值的数据,以及落地产品怎么用好这些数据,我们还会利用一些技术手段对数据做测试,去发现数据是否存在问题,这两个事情是一般基础数据服务商做不到的。”

插图

制作一套有价值的数据是有其科学性的,人工智能行业目前存在的痛点性问题和刚性需求就是,很多初创型AI公司由于数据经验不足,一套数据对自己的算法是不是真正有价值,对算法是不是会有提升也是疑惑的。而传统数据服务商本身没有提供数据制作方案的能力。数据工作是不可复的,一旦数据采集完成,你只能用这个数据或者重新做数据,时间不可回流的,对于企业来说可能意味着失去宝贵的市场机会。

据悉,卜辉本人是韩国高丽大学硕士毕业,在大学语音信息处理实验室期间一直在做语音识别方向的研究,有过半年研究员的经历。2014年初,国内人工智能大潮逐渐兴起,他选择回国,之后进入了中国大数据交易及服务行业第一家挂牌新三板的企业:数据堂,在数据堂工作了两年多时间,主要工作内容是策划人工智能大数据制作方案,尤其是在语音数据这个领域。2016年底他选择自己出来创业,融合自身的技术优势以及数据设计方案的经验,成立了希尔贝壳。

“希尔贝壳的商业模式是分阶段的呈现,现有的模式就是针对于场景语音大数据,场景语音大数据会涉及到智能家居场景,智能车载场景以及其他场景,我们也有几款自己的数据产品,比如说智能家居的语音数据产品,智能车载的以及一些基础的中文普通话的数据产品,我们也会帮客户去定制一些场景的大数据。同时我们还会不断开源一些有市场和研发价值的数据出来,例如在今年7月份开源的aishell中文普通话精标数据集,我们把数据放到了开源ASR系统KALDI里,让更多的人能进入语音识别这个领域去学习、研究。”

插图

据了解,希尔贝壳的数据产品目前以语音数据为主,主要涵盖:智能家居、智能车载、智能机器人、基础数据、开源数据五方面。现有智能家居场景语音数据录音时长1800-2100小时;智能车载语音数据录音时长750小时;智能机器人语音数据录音时长:21-25小时;中文普通话语音数据录音时长1250小时;基于kaldi的中文普通话开源语音数据库录音时长178小时。针对语音识别的研究人员以及一些新创业的AI公司而言,这些数据虽然量不够大但会是一个起步的助力。

核心技术方面,希尔贝壳拥有自己的一套语音识别引擎,自然语言处理系统,以及发音词典的生成模型等,针对数据行业存在的问题希尔贝壳研发了4套系统来用智能辅助代替大量人工:语音数据源质量评测系统,用来评测语音信号幅度、噪音、转写错误率判定、音素平衡校准。语音自动转写系统,支持普通话和英文语音,减少人工辅助;场景数据集测试系统,支持远场数据集加噪、多距离数据混响性能测试,支持车载数据集与驾驶条件下环境相符度测试;音频检索系统,辅助语音数据归类。

卜辉说:“第一我们会逐渐用技术手段去减少人工的成本,第二让数据更有价值,比如说,我们用自有的技术去提前体验做好的数据,帮助客户提前预知数据产品的错误和BUG在哪里,我们去改正去修补,让这个数据的价值体现在客户使用之前,而不是客户使用之后才发现一些问题;第三个服务方向,我们正在尝试新一代的人工智能大数据制作方案和制作方法,目前来说基本上在语音识别、图像识别、自然语言处理都是很单向的,我们会尝试多模态的数据,多种融合的数据。”

插图

多模态数据将有利于辅助机器人更智能的去判断问题,而不是只停留在语音、图像、文本的识别层面,单个领域的识别率可能都非常高,但是这三项技术并连起来会是什么样的结果,会是什么样的数据形态展现,正是多模态数据要研究的方向。

希尔贝壳前期落地的盈利模式是把自身的数据制作方案和数据去变现,把握客户的精准需求,比如说定位到智能家居场景下等。卜辉透露公司现阶段靠数据和方案已经成功变现了,7月份刚走上运营正轨,公司的商业1.0计划起步还算稳健。

“我们团队的目标是要打造人工智能大数据和技术的创新变革,我们要以一个革命者去做这个事情。”卜辉总结说。

据悉,希尔贝壳目前北京总部有8人,负责商务、产品、技术方案等,非京的地方团队目前约有20余人主要负责数据采集和标注。希尔贝壳目前正在筹备天使轮融资,希望天使投资方具备AI行业背景,比如投资过机器人公司或者投资过AI技术解决方案公司等。

产品:场景化的数据产品+数据定制方案

公司:北京希尔贝壳科技有限公司

网址:http://www.aishelltech.com

关键字:希尔贝壳定制服务

本文摘自:猎云网

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^