当前位置:大数据业界动态 → 正文

大数据和AI,纯谈概念没意义

责任编辑:editor004 |来源:企业网D1Net  2016-10-21 12:07:58 本文摘自:“caoz的梦呓

前段时间, Google 的新闻发布会,有很多与AI相关的产品推出,其实很多媒体已经说了,Google已经是一家AI公司了。

最近AI,大数据,机器学习这些概念特别火,一个通用的认识是,AI是行业未来,是下一个风口,是千亿美元巨头的诞生点。但我不想说,写一篇文章来证明,为什么AI那么重要或者那么有价值,因为这属于正确但完全没用的废话。就好比你说IT行业是巨大的市场方向一样,正确然而并没有卵用。

大数据

AI并不是最新的东西,只是最新技术发展的确实有点快,很多出色的互联网产品或其他高科技产品多少都要有AI的成分,从游戏里的Boss,到翻译系统,搜索引擎,推荐系统,到决策支持系统,自动交易系统,工业机器人,无人驾驶,以及各种社交机器人陪聊系统,美图工具,AI其实无处不在。就算从传统领域来说,不说无人驾驶,现在汽车里的各种安全辅助系统,其实也可以认为是AI系统。

锤子科技的发布会,讯飞语音输入法突然走红,这也是AI 的一个典型场景,你们知道么,我在十五年前就知道并了解过这个东西了,你会说吹牛吧,十五年前pc互联网才刚起步,移动互联网还没人听说过呢。 那时候,我还在做呼叫中心方案,呼叫中心方案里有个模块叫做IVR,中文是交互式语音应答,当时国内技术最强,处于近乎垄断地位的,就是科大讯飞,其实就是语音识别和自动处理,和现在的讯飞输入法,从技术原理而言,并无二致,但那时候,AI 这个概念还没火。当然技术也没现在成熟,实际上绝大部分呼叫中心,并没有把交互式语音应答当作重要的模块,更多是让用户按键输入和人工服务。

AI最初,是人类制定明确的规则和逻辑,并提供给机器可以借用的数据资源,让机器去执行,也就是一样样教,机器一样样学,机器发挥计算力和反应速度的优势。但后来大数据,机器学习这些东西开始起来后,很多东西就发生了改变,人类只给一个基本的学习方法和逻辑,然后就是大数据集,让AI通过这些大数据,和基本的学习方法,自己去学习和发现知识点,这样AI的能力就得到了飞跃,甚至可以发现很多人类尚未发现的知识点,也就是出现了超越人类判断力的可能。

举个例子,比如我有个系统,需要根据人的基因测序结果,来分析和判断这个人的健康风险和遗传疾病可能,在以前呢,是需要对每一个基因的定义,科学家做严格的对比测试,把结论整理清楚,然后告诉这个系统,这个系统才知道,你这个基因到底咋回事,出了什么问题。但后来大数据出来了,就有了新的玩法,根据大量真实用户的基因测序结果和真实的疾病诊断记录,系统从中寻找规律,识别不同基因的可能含义以及对应的健康问题。这很多人类尚未明确的一些基因定义,也可能被系统发现,系统就拥有了超越现有人类知识库的能力,但如果样本集不够大,也可能一些偶然重合的基因被赋予了不正确的定义。

所以大数据,机器学习,将AI带入了一个新的境界,但这里除了数据量,算法,也就是所谓的学习方法也很重要。 比如围棋AI,最开始人类用自己的规则教给他,结果怎么教都学不会,特别low,后来蒙特卡洛算法被引用后,围棋AI上了一个大台阶,从业余菜鸟水平迅速蹿升到了业余高手的水平,但这个算法的潜力很快被挖掘到了极限,所以最近三四年,其实围棋AI的能力基本停滞,直到Google 的价值评估策略横空出世,一下子从业余高手突进变成职业顶级水平,由于 Google 公开了论文,仅仅是论文的公开,仅仅最近半年时间,世界其他的围棋AI程序纷纷突破瓶颈,全都上了新的台阶。所以好的学习算法,也是非常重要的。

所以我们谈AI,谈大数据,谈机器学习,在相当多场合,可能说的是一回事。

那么问题来了,说了这些,有什么卵用?

1、可复用的基础技术

这一点必须承认,Google走的比较靠前。

一些基本的算法和思路,在很多场合可以通用,比如蒙特卡洛算法就是一个很典型的例子,当然,有专业人士可能会挑刺,这个算法貌似和机器学习关系不大哦,好吧,其实我也不是行家,很多东西我也不是很懂的。

可复用的基础技术,脱离场景的话,你可能不知道这玩意值钱在哪里,或者有什么意义,就好比你赢了围棋世界冠军,对商业来说,又能代表什么?

但这东西会成为很多革命的火种,就好比交流电,当特斯拉最开始秀各种电的神奇表演时,对于大众而言,谁知道这会成为人类生活各种场景各种工具密不可分的基础技术呢。

中国目前的互联网公司,从来都是实用为王,技术上拼得是我双11的处理能力,运营上拼得是线下几万个快递小哥的覆盖能力。在应用技术挖潜上我们可以做到极致,但是在这种基础能力上,我们还停留在超强的拿来主义原则上。

2、应用场景

关键点来了,最终能变成千亿美元,或者百亿美元的市场空间,一定是要落在具体的应用场景里。

以后谁要跟你得瑟说AI是未来,大数据是未来,巴拉巴拉的,你就直接噎他一句,具体应用场景是哪些。说不出来的都是装逼犯。

一些基础可复用的算法策略,加上针对具体应用场景的算法策略,加上海量的数据训练集,是让机器形成正确和快速判断的基础。

几个非常明确的场景

翻译绝对算一个, 想象一下,以后语音识别+自动翻译,出门全球自由行,带个实时翻译耳机,各说各话,全程无障碍沟通。这个场景将彻底改变旅游,商务出行的市场格局,并且真正促进人类的彼此理解和沟通,社会价值极为巨大。

有人说翻译的质量不会达到人类的标准,但其实这不重要,能够双方清晰理解就可以,在大多数日常沟通情况下,翻译的目的是双方理解,而不需要绝对精确。而且这样会带来一个后果,就是也许以后机器翻译体可能会开始流行,一些机器特点的表达方式会反过来改变语言原本的使用习惯,不用担心,连long time no see这样的短语,这不老美也都习惯了。当翻译体都开始流行时,良性反馈,机器的翻译就越来越精确了。

无人驾驶是一个, 用车成本会极大降低。想象一下,出租车的费用会减少一半,这是啥概念,而且不会再有绕路,拒载的事情。就算是私家车,能够安心的看风景,或者看书,或者处理工作或学习的事情,而不是紧张兮兮的捏着方向盘在车流里寻找见缝插针的机会。

医疗健康会有机会, 至少基因的大数据分析已经开始,但是从成本考虑,获得足够多的样本建立训练集应该还是一个比较长时间的事情。此外,机器导诊会不会出现,基于海量病历,针对患者病情描述和必要的检查,给出导诊建议,或给医生辅助建议。比如,有23%的几率是A病症,5%的几率是B病症,建议做什么什么检查。 短期内取代人类医生可能还不太敢,但作为辅助方式,这个其实技术上应该已经没有太大门槛了,缺的就是足够的数据量和必要的学习算法。

教育我不好讲, 但也存在一些想象空间,一个学生通过智能教育系统做题,根据其答题表现,给出下一步的学习方案和复习计划。每个学生都会根据自己的能力和自己的实际表现,采用不同学习进度,不同的学习方向发展自己。个性化的教育是不是有机会,至少可以想一下。

军事我就不说了, 有个大佬说了,这种技术最先肯定是在军事领域应用,因为替代成本高啊,比如米国,一个士兵的死亡成本是多少,派个无人机过去,替代成本高,这事就容易推动,值得投入。

正在写这个文章的时候,突然有个安全高手在微信群提到了 风控AI。 如何识别骗子,识别欺诈,识别有问题的账户或者用户,现在都是人工去把出问题的内容拿出来看,然后总结规律,形成规则交给机器和算法,但是不是可以形成一套基于历史数据挖掘的自动系统,只要发现坏数据,就回溯源数据,然后加入样本库学习,对比好数据,然后自动形成风控的策略,从而在保持门槛宽松的前提下,降低坏账率。对于一些小额贷款的p2p金融项目来说,这简直就是核心竞争力有没有,你玩得起对手玩不起,拼得就是坏账率和风控水平。

金融市场的自动交易就不说了, 人家都搞了快几十年了,会不会出现一个超级BT的新算法吊打各种传统策略?值得期待一下,但很多血淋淋的教训在前面呢。比如BAT试图用大数据逻辑来做基金啥的,纷纷被打脸,呵呵,呵呵吧。有人说,以后投资基金都不需要专业人士了,靠大数据分析就够了,不知道这个以后有多久,至少目前的大数据分析策略,还差的挺远。

图像识别和图像处理这几年也非常火, 除了娱乐应用外,安防风控,电商都有应用场景,此外还有一个分支,鉴黄,但概念火了好几年,却没有看到特别有价值的商业表现。依然是缺乏特别杀手级的应用场景,大概也和技术仍然不够强大有关。想象一下,寻人,包括走失,包括拐卖,包括抓捕,在警方后台提交一个照片,自动提示全国的哪个摄像头这个人最后经过了,这个价值大不大,但问题是,现在的技术实现不到这个级别呢。现在也就是火车站,机场安检能查指定逃犯,远谈不上大数据。

最后总结一句,大数据和AI,纯谈概念没意义,要回归场景,可复用的通用技术固然重要,但只有落在场景里,我们才知道其明确的价值在哪里。

关键字:AI学习算法翻译体

本文摘自:“caoz的梦呓

x 大数据和AI,纯谈概念没意义 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

大数据和AI,纯谈概念没意义

责任编辑:editor004 |来源:企业网D1Net  2016-10-21 12:07:58 本文摘自:“caoz的梦呓

前段时间, Google 的新闻发布会,有很多与AI相关的产品推出,其实很多媒体已经说了,Google已经是一家AI公司了。

最近AI,大数据,机器学习这些概念特别火,一个通用的认识是,AI是行业未来,是下一个风口,是千亿美元巨头的诞生点。但我不想说,写一篇文章来证明,为什么AI那么重要或者那么有价值,因为这属于正确但完全没用的废话。就好比你说IT行业是巨大的市场方向一样,正确然而并没有卵用。

大数据

AI并不是最新的东西,只是最新技术发展的确实有点快,很多出色的互联网产品或其他高科技产品多少都要有AI的成分,从游戏里的Boss,到翻译系统,搜索引擎,推荐系统,到决策支持系统,自动交易系统,工业机器人,无人驾驶,以及各种社交机器人陪聊系统,美图工具,AI其实无处不在。就算从传统领域来说,不说无人驾驶,现在汽车里的各种安全辅助系统,其实也可以认为是AI系统。

锤子科技的发布会,讯飞语音输入法突然走红,这也是AI 的一个典型场景,你们知道么,我在十五年前就知道并了解过这个东西了,你会说吹牛吧,十五年前pc互联网才刚起步,移动互联网还没人听说过呢。 那时候,我还在做呼叫中心方案,呼叫中心方案里有个模块叫做IVR,中文是交互式语音应答,当时国内技术最强,处于近乎垄断地位的,就是科大讯飞,其实就是语音识别和自动处理,和现在的讯飞输入法,从技术原理而言,并无二致,但那时候,AI 这个概念还没火。当然技术也没现在成熟,实际上绝大部分呼叫中心,并没有把交互式语音应答当作重要的模块,更多是让用户按键输入和人工服务。

AI最初,是人类制定明确的规则和逻辑,并提供给机器可以借用的数据资源,让机器去执行,也就是一样样教,机器一样样学,机器发挥计算力和反应速度的优势。但后来大数据,机器学习这些东西开始起来后,很多东西就发生了改变,人类只给一个基本的学习方法和逻辑,然后就是大数据集,让AI通过这些大数据,和基本的学习方法,自己去学习和发现知识点,这样AI的能力就得到了飞跃,甚至可以发现很多人类尚未发现的知识点,也就是出现了超越人类判断力的可能。

举个例子,比如我有个系统,需要根据人的基因测序结果,来分析和判断这个人的健康风险和遗传疾病可能,在以前呢,是需要对每一个基因的定义,科学家做严格的对比测试,把结论整理清楚,然后告诉这个系统,这个系统才知道,你这个基因到底咋回事,出了什么问题。但后来大数据出来了,就有了新的玩法,根据大量真实用户的基因测序结果和真实的疾病诊断记录,系统从中寻找规律,识别不同基因的可能含义以及对应的健康问题。这很多人类尚未明确的一些基因定义,也可能被系统发现,系统就拥有了超越现有人类知识库的能力,但如果样本集不够大,也可能一些偶然重合的基因被赋予了不正确的定义。

所以大数据,机器学习,将AI带入了一个新的境界,但这里除了数据量,算法,也就是所谓的学习方法也很重要。 比如围棋AI,最开始人类用自己的规则教给他,结果怎么教都学不会,特别low,后来蒙特卡洛算法被引用后,围棋AI上了一个大台阶,从业余菜鸟水平迅速蹿升到了业余高手的水平,但这个算法的潜力很快被挖掘到了极限,所以最近三四年,其实围棋AI的能力基本停滞,直到Google 的价值评估策略横空出世,一下子从业余高手突进变成职业顶级水平,由于 Google 公开了论文,仅仅是论文的公开,仅仅最近半年时间,世界其他的围棋AI程序纷纷突破瓶颈,全都上了新的台阶。所以好的学习算法,也是非常重要的。

所以我们谈AI,谈大数据,谈机器学习,在相当多场合,可能说的是一回事。

那么问题来了,说了这些,有什么卵用?

1、可复用的基础技术

这一点必须承认,Google走的比较靠前。

一些基本的算法和思路,在很多场合可以通用,比如蒙特卡洛算法就是一个很典型的例子,当然,有专业人士可能会挑刺,这个算法貌似和机器学习关系不大哦,好吧,其实我也不是行家,很多东西我也不是很懂的。

可复用的基础技术,脱离场景的话,你可能不知道这玩意值钱在哪里,或者有什么意义,就好比你赢了围棋世界冠军,对商业来说,又能代表什么?

但这东西会成为很多革命的火种,就好比交流电,当特斯拉最开始秀各种电的神奇表演时,对于大众而言,谁知道这会成为人类生活各种场景各种工具密不可分的基础技术呢。

中国目前的互联网公司,从来都是实用为王,技术上拼得是我双11的处理能力,运营上拼得是线下几万个快递小哥的覆盖能力。在应用技术挖潜上我们可以做到极致,但是在这种基础能力上,我们还停留在超强的拿来主义原则上。

2、应用场景

关键点来了,最终能变成千亿美元,或者百亿美元的市场空间,一定是要落在具体的应用场景里。

以后谁要跟你得瑟说AI是未来,大数据是未来,巴拉巴拉的,你就直接噎他一句,具体应用场景是哪些。说不出来的都是装逼犯。

一些基础可复用的算法策略,加上针对具体应用场景的算法策略,加上海量的数据训练集,是让机器形成正确和快速判断的基础。

几个非常明确的场景

翻译绝对算一个, 想象一下,以后语音识别+自动翻译,出门全球自由行,带个实时翻译耳机,各说各话,全程无障碍沟通。这个场景将彻底改变旅游,商务出行的市场格局,并且真正促进人类的彼此理解和沟通,社会价值极为巨大。

有人说翻译的质量不会达到人类的标准,但其实这不重要,能够双方清晰理解就可以,在大多数日常沟通情况下,翻译的目的是双方理解,而不需要绝对精确。而且这样会带来一个后果,就是也许以后机器翻译体可能会开始流行,一些机器特点的表达方式会反过来改变语言原本的使用习惯,不用担心,连long time no see这样的短语,这不老美也都习惯了。当翻译体都开始流行时,良性反馈,机器的翻译就越来越精确了。

无人驾驶是一个, 用车成本会极大降低。想象一下,出租车的费用会减少一半,这是啥概念,而且不会再有绕路,拒载的事情。就算是私家车,能够安心的看风景,或者看书,或者处理工作或学习的事情,而不是紧张兮兮的捏着方向盘在车流里寻找见缝插针的机会。

医疗健康会有机会, 至少基因的大数据分析已经开始,但是从成本考虑,获得足够多的样本建立训练集应该还是一个比较长时间的事情。此外,机器导诊会不会出现,基于海量病历,针对患者病情描述和必要的检查,给出导诊建议,或给医生辅助建议。比如,有23%的几率是A病症,5%的几率是B病症,建议做什么什么检查。 短期内取代人类医生可能还不太敢,但作为辅助方式,这个其实技术上应该已经没有太大门槛了,缺的就是足够的数据量和必要的学习算法。

教育我不好讲, 但也存在一些想象空间,一个学生通过智能教育系统做题,根据其答题表现,给出下一步的学习方案和复习计划。每个学生都会根据自己的能力和自己的实际表现,采用不同学习进度,不同的学习方向发展自己。个性化的教育是不是有机会,至少可以想一下。

军事我就不说了, 有个大佬说了,这种技术最先肯定是在军事领域应用,因为替代成本高啊,比如米国,一个士兵的死亡成本是多少,派个无人机过去,替代成本高,这事就容易推动,值得投入。

正在写这个文章的时候,突然有个安全高手在微信群提到了 风控AI。 如何识别骗子,识别欺诈,识别有问题的账户或者用户,现在都是人工去把出问题的内容拿出来看,然后总结规律,形成规则交给机器和算法,但是不是可以形成一套基于历史数据挖掘的自动系统,只要发现坏数据,就回溯源数据,然后加入样本库学习,对比好数据,然后自动形成风控的策略,从而在保持门槛宽松的前提下,降低坏账率。对于一些小额贷款的p2p金融项目来说,这简直就是核心竞争力有没有,你玩得起对手玩不起,拼得就是坏账率和风控水平。

金融市场的自动交易就不说了, 人家都搞了快几十年了,会不会出现一个超级BT的新算法吊打各种传统策略?值得期待一下,但很多血淋淋的教训在前面呢。比如BAT试图用大数据逻辑来做基金啥的,纷纷被打脸,呵呵,呵呵吧。有人说,以后投资基金都不需要专业人士了,靠大数据分析就够了,不知道这个以后有多久,至少目前的大数据分析策略,还差的挺远。

图像识别和图像处理这几年也非常火, 除了娱乐应用外,安防风控,电商都有应用场景,此外还有一个分支,鉴黄,但概念火了好几年,却没有看到特别有价值的商业表现。依然是缺乏特别杀手级的应用场景,大概也和技术仍然不够强大有关。想象一下,寻人,包括走失,包括拐卖,包括抓捕,在警方后台提交一个照片,自动提示全国的哪个摄像头这个人最后经过了,这个价值大不大,但问题是,现在的技术实现不到这个级别呢。现在也就是火车站,机场安检能查指定逃犯,远谈不上大数据。

最后总结一句,大数据和AI,纯谈概念没意义,要回归场景,可复用的通用技术固然重要,但只有落在场景里,我们才知道其明确的价值在哪里。

关键字:AI学习算法翻译体

本文摘自:“caoz的梦呓

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^