专注于场景大数据，希尔贝壳为客户提供垂直精准的数据定制服务

责任编辑：editor007 作者：都保杰 |来源：企业网D1Net 2017-09-04 20:20:51 本文摘自：猎云网

随着AI商业化的演进，现在做人工智能产品和服务的公司越来越多了，谈及人工智能就少不了讨论算法和数据的关系，在业内人士看来，实际应用过程中很多时候数据比算法显得更加重要，因为算法的“好坏”在没有大量有效数据的支撑下是没有意义的，很多算法得到的结果的质量完全取决于其和真实数据的拟合程度。

于是，在人工智能产业链上诞生了许多专门做数据的公司，希尔贝壳也是一家数据服务商，公司注册成立于2017年4月，算是刚刚起步，面对市场竞争，这家公司和其他数据公司相比有什么特别之处呢？

希尔贝壳创始人兼CEO卜辉介绍说：“目前人工智能数据服务商，基本上是以提供人力服务为主而技术辅助和方案设计能力有限。而希尔贝壳可以从参与客户的数据制作方案开始，我们知道怎么做才能够让客户得到最合理最有价值的数据，以及落地产品怎么用好这些数据，我们还会利用一些技术手段对数据做测试，去发现数据是否存在问题，这两个事情是一般基础数据服务商做不到的。”

制作一套有价值的数据是有其科学性的，人工智能行业目前存在的痛点性问题和刚性需求就是，很多初创型AI公司由于数据经验不足，一套数据对自己的算法是不是真正有价值，对算法是不是会有提升也是疑惑的。而传统数据服务商本身没有提供数据制作方案的能力。数据工作是不可复的，一旦数据采集完成，你只能用这个数据或者重新做数据，时间不可回流的，对于企业来说可能意味着失去宝贵的市场机会。

据悉，卜辉本人是韩国高丽大学硕士毕业，在大学语音信息处理实验室期间一直在做语音识别方向的研究，有过半年研究员的经历。2014年初，国内人工智能大潮逐渐兴起，他选择回国，之后进入了中国大数据交易及服务行业第一家挂牌新三板的企业：数据堂，在数据堂工作了两年多时间，主要工作内容是策划人工智能大数据制作方案，尤其是在语音数据这个领域。2016年底他选择自己出来创业，融合自身的技术优势以及数据设计方案的经验，成立了希尔贝壳。

“希尔贝壳的商业模式是分阶段的呈现，现有的模式就是针对于场景语音大数据，场景语音大数据会涉及到智能家居场景，智能车载场景以及其他场景，我们也有几款自己的数据产品，比如说智能家居的语音数据产品，智能车载的以及一些基础的中文普通话的数据产品，我们也会帮客户去定制一些场景的大数据。同时我们还会不断开源一些有市场和研发价值的数据出来，例如在今年7月份开源的aishell中文普通话精标数据集，我们把数据放到了开源ASR系统KALDI里，让更多的人能进入语音识别这个领域去学习、研究。”

据了解，希尔贝壳的数据产品目前以语音数据为主，主要涵盖：智能家居、智能车载、智能机器人、基础数据、开源数据五方面。现有智能家居场景语音数据录音时长1800-2100小时；智能车载语音数据录音时长750小时；智能机器人语音数据录音时长：21-25小时；中文普通话语音数据录音时长1250小时；基于kaldi的中文普通话开源语音数据库录音时长178小时。针对语音识别的研究人员以及一些新创业的AI公司而言，这些数据虽然量不够大但会是一个起步的助力。

核心技术方面，希尔贝壳拥有自己的一套语音识别引擎，自然语言处理系统，以及发音词典的生成模型等，针对数据行业存在的问题希尔贝壳研发了4套系统来用智能辅助代替大量人工：语音数据源质量评测系统，用来评测语音信号幅度、噪音、转写错误率判定、音素平衡校准。语音自动转写系统，支持普通话和英文语音，减少人工辅助；场景数据集测试系统，支持远场数据集加噪、多距离数据混响性能测试，支持车载数据集与驾驶条件下环境相符度测试；音频检索系统，辅助语音数据归类。

卜辉说：“第一我们会逐渐用技术手段去减少人工的成本，第二让数据更有价值，比如说，我们用自有的技术去提前体验做好的数据，帮助客户提前预知数据产品的错误和BUG在哪里，我们去改正去修补，让这个数据的价值体现在客户使用之前，而不是客户使用之后才发现一些问题；第三个服务方向，我们正在尝试新一代的人工智能大数据制作方案和制作方法，目前来说基本上在语音识别、图像识别、自然语言处理都是很单向的，我们会尝试多模态的数据，多种融合的数据。”