大数据和AI，纯谈概念没意义

责任编辑：editor004 |来源：企业网D1Net 2016-10-21 12:07:58 本文摘自：“caoz的梦呓

前段时间， Google 的新闻发布会，有很多与AI相关的产品推出，其实很多媒体已经说了，Google已经是一家AI公司了。

最近AI，大数据，机器学习这些概念特别火，一个通用的认识是，AI是行业未来，是下一个风口，是千亿美元巨头的诞生点。但我不想说，写一篇文章来证明，为什么AI那么重要或者那么有价值，因为这属于正确但完全没用的废话。就好比你说IT行业是巨大的市场方向一样，正确然而并没有卵用。

大数据

AI并不是最新的东西，只是最新技术发展的确实有点快，很多出色的互联网产品或其他高科技产品多少都要有AI的成分，从游戏里的Boss，到翻译系统，搜索引擎，推荐系统，到决策支持系统，自动交易系统，工业机器人，无人驾驶，以及各种社交机器人陪聊系统，美图工具，AI其实无处不在。就算从传统领域来说，不说无人驾驶，现在汽车里的各种安全辅助系统，其实也可以认为是AI系统。

锤子科技的发布会，讯飞语音输入法突然走红，这也是AI 的一个典型场景，你们知道么，我在十五年前就知道并了解过这个东西了，你会说吹牛吧，十五年前pc互联网才刚起步，移动互联网还没人听说过呢。那时候，我还在做呼叫中心方案，呼叫中心方案里有个模块叫做IVR，中文是交互式语音应答，当时国内技术最强，处于近乎垄断地位的，就是科大讯飞，其实就是语音识别和自动处理，和现在的讯飞输入法，从技术原理而言，并无二致，但那时候，AI 这个概念还没火。当然技术也没现在成熟，实际上绝大部分呼叫中心，并没有把交互式语音应答当作重要的模块，更多是让用户按键输入和人工服务。

AI最初，是人类制定明确的规则和逻辑，并提供给机器可以借用的数据资源，让机器去执行，也就是一样样教，机器一样样学，机器发挥计算力和反应速度的优势。但后来大数据，机器学习这些东西开始起来后，很多东西就发生了改变，人类只给一个基本的学习方法和逻辑，然后就是大数据集，让AI通过这些大数据，和基本的学习方法，自己去学习和发现知识点，这样AI的能力就得到了飞跃，甚至可以发现很多人类尚未发现的知识点，也就是出现了超越人类判断力的可能。

举个例子，比如我有个系统，需要根据人的基因测序结果，来分析和判断这个人的健康风险和遗传疾病可能，在以前呢，是需要对每一个基因的定义，科学家做严格的对比测试，把结论整理清楚，然后告诉这个系统，这个系统才知道，你这个基因到底咋回事，出了什么问题。但后来大数据出来了，就有了新的玩法，根据大量真实用户的基因测序结果和真实的疾病诊断记录，系统从中寻找规律，识别不同基因的可能含义以及对应的健康问题。这很多人类尚未明确的一些基因定义，也可能被系统发现，系统就拥有了超越现有人类知识库的能力，但如果样本集不够大，也可能一些偶然重合的基因被赋予了不正确的定义。

所以大数据，机器学习，将AI带入了一个新的境界，但这里除了数据量，算法，也就是所谓的学习方法也很重要。比如围棋AI，最开始人类用自己的规则教给他，结果怎么教都学不会，特别low，后来蒙特卡洛算法被引用后，围棋AI上了一个大台阶，从业余菜鸟水平迅速蹿升到了业余高手的水平，但这个算法的潜力很快被挖掘到了极限，所以最近三四年，其实围棋AI的能力基本停滞，直到Google 的价值评估策略横空出世，一下子从业余高手突进变成职业顶级水平，由于 Google 公开了论文，仅仅是论文的公开，仅仅最近半年时间，世界其他的围棋AI程序纷纷突破瓶颈，全都上了新的台阶。所以好的学习算法，也是非常重要的。

所以我们谈AI，谈大数据，谈机器学习，在相当多场合，可能说的是一回事。

那么问题来了，说了这些，有什么卵用?

1、可复用的基础技术

这一点必须承认，Google走的比较靠前。

一些基本的算法和思路，在很多场合可以通用，比如蒙特卡洛算法就是一个很典型的例子，当然，有专业人士可能会挑刺，这个算法貌似和机器学习关系不大哦，好吧，其实我也不是行家，很多东西我也不是很懂的。

可复用的基础技术，脱离场景的话，你可能不知道这玩意值钱在哪里，或者有什么意义，就好比你赢了围棋世界冠军，对商业来说，又能代表什么?

但这东西会成为很多革命的火种，就好比交流电，当特斯拉最开始秀各种电的神奇表演时，对于大众而言，谁知道这会成为人类生活各种场景各种工具密不可分的基础技术呢。

中国目前的互联网公司，从来都是实用为王，技术上拼得是我双11的处理能力，运营上拼得是线下几万个快递小哥的覆盖能力。在应用技术挖潜上我们可以做到极致，但是在这种基础能力上，我们还停留在超强的拿来主义原则上。

2、应用场景

关键点来了，最终能变成千亿美元，或者百亿美元的市场空间，一定是要落在具体的应用场景里。

以后谁要跟你得瑟说AI是未来，大数据是未来，巴拉巴拉的，你就直接噎他一句，具体应用场景是哪些。说不出来的都是装逼犯。

一些基础可复用的算法策略，加上针对具体应用场景的算法策略，加上海量的数据训练集，是让机器形成正确和快速判断的基础。

几个非常明确的场景

翻译绝对算一个，想象一下，以后语音识别+自动翻译，出门全球自由行，带个实时翻译耳机，各说各话，全程无障碍沟通。这个场景将彻底改变旅游，商务出行的市场格局，并且真正促进人类的彼此理解和沟通，社会价值极为巨大。

有人说翻译的质量不会达到人类的标准，但其实这不重要，能够双方清晰理解就可以，在大多数日常沟通情况下，翻译的目的是双方理解，而不需要绝对精确。而且这样会带来一个后果，就是也许以后机器翻译体可能会开始流行，一些机器特点的表达方式会反过来改变语言原本的使用习惯，不用担心，连long time no see这样的短语，这不老美也都习惯了。当翻译体都开始流行时，良性反馈，机器的翻译就越来越精确了。

无人驾驶是一个，用车成本会极大降低。想象一下，出租车的费用会减少一半，这是啥概念，而且不会再有绕路，拒载的事情。就算是私家车，能够安心的看风景，或者看书，或者处理工作或学习的事情，而不是紧张兮兮的捏着方向盘在车流里寻找见缝插针的机会。

医疗健康会有机会，至少基因的大数据分析已经开始，但是从成本考虑，获得足够多的样本建立训练集应该还是一个比较长时间的事情。此外，机器导诊会不会出现，基于海量病历，针对患者病情描述和必要的检查，给出导诊建议，或给医生辅助建议。比如，有23%的几率是A病症，5%的几率是B病症，建议做什么什么检查。短期内取代人类医生可能还不太敢，但作为辅助方式，这个其实技术上应该已经没有太大门槛了，缺的就是足够的数据量和必要的学习算法。

教育我不好讲，但也存在一些想象空间，一个学生通过智能教育系统做题，根据其答题表现，给出下一步的学习方案和复习计划。每个学生都会根据自己的能力和自己的实际表现，采用不同学习进度，不同的学习方向发展自己。个性化的教育是不是有机会，至少可以想一下。

军事我就不说了，有个大佬说了，这种技术最先肯定是在军事领域应用，因为替代成本高啊，比如米国，一个士兵的死亡成本是多少，派个无人机过去，替代成本高，这事就容易推动，值得投入。

正在写这个文章的时候，突然有个安全高手在微信群提到了风控AI。如何识别骗子，识别欺诈，识别有问题的账户或者用户，现在都是人工去把出问题的内容拿出来看，然后总结规律，形成规则交给机器和算法，但是不是可以形成一套基于历史数据挖掘的自动系统，只要发现坏数据，就回溯源数据，然后加入样本库学习，对比好数据，然后自动形成风控的策略，从而在保持门槛宽松的前提下，降低坏账率。对于一些小额贷款的p2p金融项目来说，这简直就是核心竞争力有没有，你玩得起对手玩不起，拼得就是坏账率和风控水平。

金融市场的自动交易就不说了，人家都搞了快几十年了，会不会出现一个超级BT的新算法吊打各种传统策略?值得期待一下，但很多血淋淋的教训在前面呢。比如BAT试图用大数据逻辑来做基金啥的，纷纷被打脸，呵呵，呵呵吧。有人说，以后投资基金都不需要专业人士了，靠大数据分析就够了，不知道这个以后有多久，至少目前的大数据分析策略，还差的挺远。

图像识别和图像处理这几年也非常火，除了娱乐应用外，安防风控，电商都有应用场景，此外还有一个分支，鉴黄，但概念火了好几年，却没有看到特别有价值的商业表现。依然是缺乏特别杀手级的应用场景，大概也和技术仍然不够强大有关。想象一下，寻人，包括走失，包括拐卖，包括抓捕，在警方后台提交一个照片，自动提示全国的哪个摄像头这个人最后经过了，这个价值大不大，但问题是，现在的技术实现不到这个级别呢。现在也就是火车站，机场安检能查指定逃犯，远谈不上大数据。

最后总结一句，大数据和AI，纯谈概念没意义，要回归场景，可复用的通用技术固然重要，但只有落在场景里，我们才知道其明确的价值在哪里。

关键字：AI 学习算法翻译体