当前位置:大数据业界动态 → 正文

什么是机器学习?数据起源的软件

责任编辑:jackye 作者:Harris编译 |来源:企业网D1Net  2017-08-17 09:56:58 本文摘自:机房360

构建从数据中学习的系统是解决复杂问题的更好方法,可以提供足够的有意义的数据来学习。

也许人们可能不只一次听说过“机器学习”这个术语。机器学习通常与人工智能互换使用,实际上是人工智能的一个子集,二者诞生于20世纪50年代后期的麻省理工学院。

不管人们知道与否,机器学习都是人们每天都可能遇到的事情。Siri和Alexa是语音助手,Facebook和微软公司的面部识别,亚马逊和Netflix的建议,让自主驾驶汽车不会崩溃的技术都是机器学习进步的结果。

虽然仍然没有像人脑一样复杂,但基于机器学习的系统已经取得了一些令人印象深刻的专长,比如击败国际象棋,智力竞赛Jeopardy,围棋和德州扑克的人类挑战者。

几十年来,由于过度炒作并且不切实际的发展,使得人工智能发展处于低潮。近年来由于一系列的技术突破,成本低廉的计算能力爆炸式增长,人工智能和机器学习在过去几年中已经有了巨大的复苏,大量的机器学习模型用于处理数据。

自学习软件

那么什么是机器学习呢?先来看一下它不是什么:一个传统的手工编码的人工编程计算应用程序。

与传统的软件不同,传统的软件在遵循指令的同时也很可怕,但机器学习系统本身就是自己编写的,通过实例进行泛化来开发自己的指令。

典型的例子是图像识别。向机器学习系统展示足够狗的照片(标记为“狗”),以及猫,树,婴儿,香蕉或任何其他物体(标记为“不是狗”)的图片,如果系统进行正确训练,最终将会擅长识别狗,而并没有人曾经告诉它,狗应该是什么样子的。

电子邮件程序中的垃圾邮件过滤器普是机器学习中的一个很好的例子。在接触了数以百万计的垃圾邮件样本以及非垃圾邮件之后,它学会了识别那些令人讨厌的有害信息的关键特征。虽然它并不完美,但它通常是相当准确的。

监督与无监督学习

这种机器学习被称为监督学习,这意味着有人将机器学习算法暴露于一组庞大的训练数据,研究其输出,然后不断调整其设置,直到产生预期结果(这类似于当过滤器意外收集合法邮件时,单击收件箱中的“不是垃圾邮件”按钮。人们所做的越多,过滤器的准确性越高)。

最常见的监督学习任务涉及分类和预测(即“回归”)。垃圾邮件检测和图像识别都是分类问题。预测股价则是回归问题的典型例子。

第二种机器学习叫做无监督学习。这就是系统通过大量数据来了解“正常”数据的样子,因此它可以检测异常和隐藏模式。无监督的机器学习在你不知道你在寻找什么的时候是有用的,所以人们不能训练系统找到它。

无监督的机器学习系统可以识别大量数据的模式比人类的速度要快许多倍,这就是为什么银行使用它们来标记欺诈性交易,营销人员部署它们来识别具有相似属性的客户,安全软件使用它们来检测网络上的恶意活动的原因。

聚类和关联规则学习是无监督学习算法的两个例子。聚类是客户细分背后的秘密规则,例如,关联规则学习用于推荐引擎。

机器学习的局限性

 

因为每个机器学习系统创建自己的连接,所以一个特定的实际工作可以是一个黑盒子。人们不能总是逆向工程来发现为什么系统可以区分哈巴狗和波斯狗。只要它有效,这并不重要。

但是,机器学习系统只能与其暴露的数据一样好,而这是一个“垃圾输入,垃圾输出”的典型例子。当训练不足或暴露于不足的数据集时,机器学习算法会产生的结果不仅是错误的,而且是歧视性的。

惠普公司在2009年面临麻烦,当时惠普公司生产的MediaSmart笔记本电脑上的网络摄像机内置的面部识别技术无法识别非裔美国人的脸。2015年6月,Google相册应用程式中的错误算法将两名黑人错误地标记为大猩猩。

另一个戏剧性的例子:微软公司失败的Taybot在2016年3月的一个实验中,试验人工智能系统是否可以通过学习Twitter的言论来模拟人类的对话。在不到一天的时间里,Twitter将Tay变成了一个充满了憎恨言论的聊天机器人。而这就是糟糕的培训数据。

机器学习词典

但是机器学习确实是人工智能的尖端。与机器学习密切相关的其他术语是神经网络、深度学习和认知计算。

神经网络。是一种旨在模拟人类大脑神经元结构的计算机架构,每个人造神经元(微电路)连接到系统内的其他神经元。神经网络分层布置,一层神经元将数据传递到下一层的多个神经元,依此类推,直到最终达到输出层。这个最后一层是神经网络给出最好的猜测,也就是说,这个狗一样形状的物体是什么,以及一个置信度分数。

有多种类型的神经网络来解决不同类型的问题。具有大量层次的网络称为“深层神经网络”。神经网络是机器学习场景中使用的最重要的工具,但不是唯一的工具。

深度学习本质上是一种机器学习,使用多层(深层)神经网络基于“不完美”或不完整的信息来作出决定。深度学习系统DeepStack去年12月打败了11名职业扑克玩家,其在每场投注后不断重新计算其战略。

认知计算。沃森的创造者IBM公司了解计算机与人工智能的区别,IBM公司认为认知计算可以代替人类智能,认知计算旨在增强认知计算能力,可以使医生更准确地诊断疾病,财务经理做出更明智的建议,律师更快地搜索法律案例等。

这当然是一个非常肤浅的概述。那些想要更深入地学习人工智能和机器学习的复杂性的人可以从专门的培训机构学习。

尽管如今人工智能有一些炒作的成分,但人们知道机器学习和与之相关的技术正在改变世界,这并不夸张。人们在其技术应用爆发之前,最好先了解一下。

关键字:机器学习学习算法

本文摘自:机房360

x 什么是机器学习?数据起源的软件 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

什么是机器学习?数据起源的软件

责任编辑:jackye 作者:Harris编译 |来源:企业网D1Net  2017-08-17 09:56:58 本文摘自:机房360

构建从数据中学习的系统是解决复杂问题的更好方法,可以提供足够的有意义的数据来学习。

也许人们可能不只一次听说过“机器学习”这个术语。机器学习通常与人工智能互换使用,实际上是人工智能的一个子集,二者诞生于20世纪50年代后期的麻省理工学院。

不管人们知道与否,机器学习都是人们每天都可能遇到的事情。Siri和Alexa是语音助手,Facebook和微软公司的面部识别,亚马逊和Netflix的建议,让自主驾驶汽车不会崩溃的技术都是机器学习进步的结果。

虽然仍然没有像人脑一样复杂,但基于机器学习的系统已经取得了一些令人印象深刻的专长,比如击败国际象棋,智力竞赛Jeopardy,围棋和德州扑克的人类挑战者。

几十年来,由于过度炒作并且不切实际的发展,使得人工智能发展处于低潮。近年来由于一系列的技术突破,成本低廉的计算能力爆炸式增长,人工智能和机器学习在过去几年中已经有了巨大的复苏,大量的机器学习模型用于处理数据。

自学习软件

那么什么是机器学习呢?先来看一下它不是什么:一个传统的手工编码的人工编程计算应用程序。

与传统的软件不同,传统的软件在遵循指令的同时也很可怕,但机器学习系统本身就是自己编写的,通过实例进行泛化来开发自己的指令。

典型的例子是图像识别。向机器学习系统展示足够狗的照片(标记为“狗”),以及猫,树,婴儿,香蕉或任何其他物体(标记为“不是狗”)的图片,如果系统进行正确训练,最终将会擅长识别狗,而并没有人曾经告诉它,狗应该是什么样子的。

电子邮件程序中的垃圾邮件过滤器普是机器学习中的一个很好的例子。在接触了数以百万计的垃圾邮件样本以及非垃圾邮件之后,它学会了识别那些令人讨厌的有害信息的关键特征。虽然它并不完美,但它通常是相当准确的。

监督与无监督学习

这种机器学习被称为监督学习,这意味着有人将机器学习算法暴露于一组庞大的训练数据,研究其输出,然后不断调整其设置,直到产生预期结果(这类似于当过滤器意外收集合法邮件时,单击收件箱中的“不是垃圾邮件”按钮。人们所做的越多,过滤器的准确性越高)。

最常见的监督学习任务涉及分类和预测(即“回归”)。垃圾邮件检测和图像识别都是分类问题。预测股价则是回归问题的典型例子。

第二种机器学习叫做无监督学习。这就是系统通过大量数据来了解“正常”数据的样子,因此它可以检测异常和隐藏模式。无监督的机器学习在你不知道你在寻找什么的时候是有用的,所以人们不能训练系统找到它。

无监督的机器学习系统可以识别大量数据的模式比人类的速度要快许多倍,这就是为什么银行使用它们来标记欺诈性交易,营销人员部署它们来识别具有相似属性的客户,安全软件使用它们来检测网络上的恶意活动的原因。

聚类和关联规则学习是无监督学习算法的两个例子。聚类是客户细分背后的秘密规则,例如,关联规则学习用于推荐引擎。

机器学习的局限性

 

因为每个机器学习系统创建自己的连接,所以一个特定的实际工作可以是一个黑盒子。人们不能总是逆向工程来发现为什么系统可以区分哈巴狗和波斯狗。只要它有效,这并不重要。

但是,机器学习系统只能与其暴露的数据一样好,而这是一个“垃圾输入,垃圾输出”的典型例子。当训练不足或暴露于不足的数据集时,机器学习算法会产生的结果不仅是错误的,而且是歧视性的。

惠普公司在2009年面临麻烦,当时惠普公司生产的MediaSmart笔记本电脑上的网络摄像机内置的面部识别技术无法识别非裔美国人的脸。2015年6月,Google相册应用程式中的错误算法将两名黑人错误地标记为大猩猩。

另一个戏剧性的例子:微软公司失败的Taybot在2016年3月的一个实验中,试验人工智能系统是否可以通过学习Twitter的言论来模拟人类的对话。在不到一天的时间里,Twitter将Tay变成了一个充满了憎恨言论的聊天机器人。而这就是糟糕的培训数据。

机器学习词典

但是机器学习确实是人工智能的尖端。与机器学习密切相关的其他术语是神经网络、深度学习和认知计算。

神经网络。是一种旨在模拟人类大脑神经元结构的计算机架构,每个人造神经元(微电路)连接到系统内的其他神经元。神经网络分层布置,一层神经元将数据传递到下一层的多个神经元,依此类推,直到最终达到输出层。这个最后一层是神经网络给出最好的猜测,也就是说,这个狗一样形状的物体是什么,以及一个置信度分数。

有多种类型的神经网络来解决不同类型的问题。具有大量层次的网络称为“深层神经网络”。神经网络是机器学习场景中使用的最重要的工具,但不是唯一的工具。

深度学习本质上是一种机器学习,使用多层(深层)神经网络基于“不完美”或不完整的信息来作出决定。深度学习系统DeepStack去年12月打败了11名职业扑克玩家,其在每场投注后不断重新计算其战略。

认知计算。沃森的创造者IBM公司了解计算机与人工智能的区别,IBM公司认为认知计算可以代替人类智能,认知计算旨在增强认知计算能力,可以使医生更准确地诊断疾病,财务经理做出更明智的建议,律师更快地搜索法律案例等。

这当然是一个非常肤浅的概述。那些想要更深入地学习人工智能和机器学习的复杂性的人可以从专门的培训机构学习。

尽管如今人工智能有一些炒作的成分,但人们知道机器学习和与之相关的技术正在改变世界,这并不夸张。人们在其技术应用爆发之前,最好先了解一下。

关键字:机器学习学习算法

本文摘自:机房360

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^