外出采访前,预约了嘀嘀打车,等候的空隙,刷着微博,马航失联已超过十天,心一直为马航的239个生命悬着,一遍遍的探寻“飞机去哪里了?”助飞机腾飞的双翼能把普通大众带向哪里呢?
倒是嘀嘀打车还算给力,语音提示里小姑娘的声音似乎有些熟悉,没太在意,上车后就直奔中关村软件园,今天采访的对象是北京捷通华声语音技术有限公司董事长张连毅。
捷通华声近一年好事不断,先有百度战略投资,继之又与清华大学达成战略合作,如此频繁的动作让这家一直低调的公司备受关注。企业网D1Net也期望通过此次采访,了解中国智能人机交互产业是否真如外界资本追捧的那样,已开始步入快车道。
负责接待我的还是小楠,这是一个笑意盈盈,嗓音清爽而甜美的女孩。与她笑侃了一通现在嘀嘀打车真方便而实惠的话题,她则沉稳的回答:“是呀,现在嘀嘀打车真的很火,你知道吗?嘀嘀打车的语音提示就是捷通华声的技术,而那个女孩的声音来源就是我。”
怪不得对这声音有熟悉感!实际上,以语音技术为代表的智能人机交互技术(HCI)已越来越多的融入我们的工作生活里,从普通大众熟悉的手机触摸技术,到苹果的Siri、公交车、地铁站的报站以及汽车导航等语音技术的运用,HCI技术已带给我们太多的惊喜。
有惊喜并不代表着一个行业就此步入了快车道,在北京捷通华声语音技术有限公司董事长张连毅的战略布局里:基础科研及智能应用的双翼才能真正助力HCI腾飞。
上图为:北京捷通华声语音技术有限公司董事长张连毅
战略定位:向平台服务转型
捷通华声的转型之路从2011年开始,从技术提供商到解决方案提供商至2013年正式决定转型至平台服务商的身份,捷通华声只用了两年时间。
转型必然阵痛,在张连毅看来,这是产业发展的必然结果,随着互联网、大数据应用趋势及云计算技术的发展推动,捷通华声原有的产品体系已不适应市场的发展。所以在2013年,捷通华声从发展方向、产品形态及市场规划等方面进行了重新梳理,并引进了百度资本,进行了全方位的改革。
百度投资:应用先行
张连毅认为,与百度合作,使捷通华声的各种智能人机交互应用得到了真正的落地。百度的多种产品,都需要捷通华声的相关技术作为支撑,比如百度地图、百度导航、百度翻译,百度语音助手这些产品都用到了捷通华声的语音合成技术。
另一方面,百度也在积极寻找产业协作层面的合作,共同探讨在2B领域延展百度的市场拓展。
基于各种对语音应用上的探索,使捷通华声在原有语音技术上的研究也得到了全面的应用检验。
随着语音技术得到越来越多的应用,张连毅在思考:“如果语音的基础研究跟不上,未来的发展必然会遇到瓶颈。”他清醒的认识到:作为一个民营的语音技术提供商,尤其是希望打造成为HCI平台服务商,要发展,必须要有更加深厚与宽广的基础研究成果。
背靠大树好乘凉!这个思路为2013年年底捷通华声与清华大学战略合作做好了铺垫。
清华大学:基础研究
捷通华声致力于发展全方位HCI技术研究与应用,但也意识到,捷通华声不能完全仅凭自己的能力全面发展HCI技术,而在HC技术领域,清华大学的研究力量一直是全国最强大的,而且,张连毅自己也出自清华,当他再次走进清华大学,认为只是自然的回归而已。只不过,张连毅在回归的过程中,也在找寻着自身企业发展的方法。就如一个原本就很刻苦、很努力学习的学生,如果能找到好的学习方法,那在学习上就一定会事半功倍。
张连毅找到的这个方法就是与清华大学合作,助力清华大学在HCI领域的基础研究成果与广大的市场需求对接,而清华大学也在探索产、学、研一体化创新体制,也希望通过捷通华声的灵云平台,将其基础研究成果转化为真正的生产力,服务产业、服务社会大众,双方的合作将共同努力实现“灵云科技、源自清华、服务全球”长远发展战略。
因此,在HCI的战略格局上,捷通华声部署的双翼已完成,双翼将安装在捷通华声灵云平台强大的机身上,才能实现HCI的真正腾飞。
灵云平台:超强机身
目前,智能语音交互仍然是最重要的人机交互手段,但正如同人和人的沟通一样,并不只是依靠语言,文字书写、图像、情感表达也都是交流的组成部分。
所以,要实现真正意义上的简单自然的交流,必须要依靠各种人机交互技术,结合各种复杂的场景,实现随时、随地、随场景的交流与沟通。
为达到上述愿景,捷通华声于2011年12月08日打造出灵云平台。灵云平台是国内首个全方位智能人机交互(HCI)技术开放平台。
灵云不仅仅局限于语音云服务等某一项单一的HCI技术,而是一种可以用语音、手写、拍照,手势甚至是未来脑波识别等智能手段来操作、感知手机、计算机等数字设备的网络云服务。
目前,灵云以“云+端”的方式,为用户提供语音合成、语音识别、手写识别、光学字符识别、自然语言理解等智能人机交互技术服务,其目标就是力求让人机交互与人与人的沟通一样简单自然。
由此可见,灵云平台本身已超越了大家所熟知的手写识别、语音识别等领域,而是期望从更宽广的角度、更完整的视野去诠释人机交互的各种场景,并最终实现各种应用。
灵云起飞:需平衡短板
任何企业的成功,必然离不开天时、地利、人和等因素。灵云平台生逢其时,愿景很美好,捷通华声打造的灵云平台设计初衷也非常美好,但其自身实力是否能真正承载这一设计?
灵云平台作为全方位智能人机交互技术开放平台,综合了语音合成、语音识别、手写识别、光学字符识别、自然语言理解等各项HCI技术,捷通华声在这些领域的技术积累情况如何呢?是否真正做好了准备?
首先看手写识别、光学字符识别技术,这两方面的技术积累已然成熟,捷通华声对此有多年的应用案例积累,在此不做过多的阐述。
重点从语音技术说起,目前国内将语音技术分为语音合成与语音识别两个方面。语音合成技术在中国已有十多年历史,应用范围很广,包括各种播报、导航等应用较多。目前中国市场几乎由捷通华声、科大讯飞两家公司控制,两家公司的市场份额相当。
而语音识别技术,由于技术门槛更高,语音应用的范围更广,市场潜力巨大,所以吸引了很多国际国内很多厂商的关注。
国际知名的语音识别公司Nuance、Google、微软起步甚早,国内科大讯飞依靠科技大学的科研力量,以及在资本市场上获得的研发资金支持,在中国语音识别领域俨然是快人一步。与此同时,中科信利、得意音通等传统新秀语音企业,再加上百度、搜狗、腾讯等由于自身业务需求应用,也在通过资本收购或者自主研发进军语音识别市场。
语音识别市场这样的竞争格局,显然对捷通华声并不是特别有利,而捷通华声倾力打造的HCI灵云平台,如果语音识别这样的重磅的技术不能取得领先,那无异于等同于缺少了左膀右臂。
张连毅推动捷通华声通过与清华大学的战略合作,将语音识别技术的短板迅速拉升。“清华大学的语音识别基础研究已经帮助捷通华声在半年内将语音识别技术提高到国内最高水平。过去清华大学语音研究力量也一直处在产业幕后的地位,这次合作,我们将清华科技推向前台,向产业界充分展现清华大学在语音技术领域的绝对实力!”张连毅如是说。
而自然语言理解技术,相比语音识别技术更具挑战,自然语言理解技术应用目前已处于爆发前的起步期,应用灵云越来越广,捷通华声已经与清华大学几个国内顶尖自然语言理解技术实验室建立多领域的合作,并与捷通华声自身核心技术相结合,迅速推出了应用最领先技术自然语言理解技术的灵云智能客服系统。
在新的HCI技术领域,如生物特征识别,一些技术已经成熟,一些技术如脑波识别技术,还处于实验室研究阶段,目前讨论还为时尚早,张连毅认为,要未雨绸缪,应充分考虑到各种可能,灵云平台将为生物特征识别技术预留接口。
灵云翱翔:合作共赢
在张连毅看来,合作伙伴至少有三个层次:
一是客户合作伙伴:捷通华声永远都是客户辉煌背后的支持者,可以默默无闻,从不喧宾夺主。可以是嘀嘀打车背后的声音,也可以是“汉字英雄”背后的手写输入,还可以是导航的领路者。
二是战略合作伙伴:无论是百度,还是清华大学,成为助捷通华声HCI灵云平台翱翔的双翼。百度语音识别与灵云语音合成完美结合,助力百度地图、百度导航掀起导航革命,同时让捷通华声语音技术应用得到落地;清华大学的基础科研研究,则为捷通华声构架起坚实的技术基础。
三是渠道合作伙伴:捷通华声希望与各个领域的渠道合作伙伴共同开启HCI的跨世纪应用。捷通华声与导航犬的合作,全面应用了灵云语音识别、语音合成、语义理解、语音唤醒等功能。
“只有依靠合作伙伴,才能让灵云平台腾飞。”张连毅强调。
企业网D1Net总结:
采访张连毅的过程,是对中国HCI产业重新认识与定义的过程,这个行业外表的风光与实际遇到的困境,可能只有身处其中的人才能真正理解。
虽然智能语音等HCI领域风光无限,资本市场的逐利属性,让HCI似乎前景甚好,而实际上,据小编观察:如当今国内的语音产业,并没有非常成功的前端语音产品可以主宰市场。功能上的同质化、用户体验不足、语音识别准确率不高、实用化尚有距离等因素依然限制着HCI产业的发展。
另一方面,相比较国外语音产业,中国语音产业规模尚小,政府支持范围有限,而且国内个别企业设置各种壁垒,甚至人为“垄断”,这些因素都限制了中国HCI的发展。
正如张连毅所说:一花独放不是春,要鼓励百花齐放。这个百花齐放我相信不仅仅是指捷通华声灵云平台本身需要包罗各种技术,需要聚拢更多合作伙伴,我更期待HCI的各个上下游环节的所有伙伴,在以国家利益和产业整体发展利益为总体规划的前提下,各显所能,共同发展。就如马航的失联客机,不要因为人为的狭隘干预,让这架已经启航的飞机不知落于何处?