业务中机器学习的实用指南

责任编辑：cres 作者：Mary Branscombe |来源：企业网D1Net 2017-09-18 11:54:57 原创文章企业网D1Net

机器学习将对你的业务产生深远的影响，但炒作正在引起混乱。以下是关于什么是机器学习以及如今怎么利用它的一个清晰的看法。

机器学习正在转变业务。但即便随着技术的进步，企业仍然在艰难地利用这一技术，主要是因为他们不了解如何在战略上实施机器学习来服务于业务目标。炒作是没有用的，这只会对机器学习究竟是什么，它的工作原理以及对企业可以做什么造成混乱。

下面，让我们来提供了一个清晰的看法，了解什么是机器学习，以及如今如何利用它。

什么是机器学习?

机器学习是人工智能的一部分，使系统能够在没有明确编程的情况下学习和预测结果。它通常与人工智能这个术语互换使用，因为它是迄今为止在现实世界中产生最大影响的人工智能技术，并且这是你最有可能在业务中使用的。聊天机器人、产品推荐、垃圾邮件过滤器、自动驾驶汽车以及一系列利用机器学习的其它系统，就像Siri和小娜这样的“智能代理”。

机器学习通过学习大型的数据集来教计算机做决策，而不是编写直接做出决策的算法和规则，或者使用一套规则、例外和过滤器把计算机编程得“智能化”。基于规则的系统在必须考虑到现实世界的复杂性时，会迅速变得脆弱;机器学习可以创建代表和概括用于训练数据的模式的模型，并且可以使用这些模型来解释和分析新的信息。

机器学习适用于分类，其包括识别图像和视频中的文本和对象的能力，以及查找数据中的关联或将数据细分成群集(例如，查找客户群)。机器学习也擅长于预测，例如计算事件或预测结果的可能性。机器学习也可用于生成丢失的数据;例如，最新版本的CorelDRAW使用机器学习来插入你用钢笔工具制作的多个粗略笔画所画出的平滑笔触。

机器学习的核心是算法。有一些算法，如回归、k均值聚类和支持向量机已经被使用了几十年。支持向量机使用数学方法来表示如何在分属不同类别的东西之间划分分界线。有效利用机器学习的关键是将正确的算法与你的问题相匹配。

神经网络

神经网络是一种基于互连节点网络的机器学习算法，它可以很好地完成模式识别这样的任务。

神经网络不是一种新的算法，但是大数据集的可用性和更强大的处理(尤其是可并行处理大量数据流的GPU)最近才使它们在实践中变得有用。尽管名字是这样叫，神经网络并非严格地基于生物神经元。神经网络中的每个节点都具有与输入触发的其它节点的连接。一旦触发，每个节点向其输入添加权重，以标记其执行或与该节点的功能匹配或不匹配的概率。节点被组织在数据流经的固定的层中，不同于大脑，其定期创建，移除和重组突触连接。

深度学习

深度学习是基于深层神经网络的机器学习的一部分。深度神经网络是具有多个层次的神经网络，用于在多个步骤中执行学习。卷积深层神经网络通常通过处理特征层次来执行图像识别，其中每个层寻找更复杂的对象。例如，识别狗的品种的深层网络的第一层可能被训练以在图像中找到狗的形状，第二层可能看起来像毛皮和牙齿的纹理，其它层识别耳朵、眼睛、尾巴和其它特征，最终层用来区分不同品种。递归深层神经网络用于语音识别和自然语言处理，其中序列和情境很重要。

有很多开源的深度学习工具包可用于构建你自己的系统。Theano，Torch和Caffe是热门的选择，谷歌的TensorFlow和微软认知工具包(Microsoft Cognitive Toolkit)可让你使用多个服务器来构建更强大的系统，而该系统在你的网络中有更多的层。

微软的分布式机器学习工具包(Distributed Machine Learning Toolkit)将其中几个深度学习的工具包与其它机器学习库打包在一起，AWS和Azure都提供预装了深度学习工具的虚拟机。

实践中的机器学习

机器学习的结果是你正在查看的数据与你的机器学习模型受训要找到的百分比确定性的匹配。所以，一个受训来识别照片和视频中人脸的情绪的深度网络可能会将图片评分为“97.6%幸福、0.1%悲伤、5.2%惊喜、0.5%中立、0.2%愤怒、0.3%蔑视、0.01%厌恶、12%的恐惧”使用此信息意味着与可能性和不确定性打交道，而不是确切的结果。

概率机器学习(Probabilistic machine learning)使用概率概念，它使你能够执行机器学习而无需编写算法。代替标准编程中变量的设定值，概率编程中的一些变量具有落在已知范围内的值，而其它变量具有未知值，不是像传统编程那样使用变量的固定值。处理你想要理解的数据，就像这是代码的输出一样，你可以逆向工作，填写这些未知值将产生该结果的内容。使用较少的编码，你就可以做更多的原型和实验;概率机器学习也更容易调试。

这是Outlook使用的“筛选”功能，它是一个能根据你过去阅读、回复和删除的消息过滤不那么有趣的消息的技术。它是由Infer.NET构建的，它是一个可用于构建自己的概率系统的.NET框架。

认知计算是IBM为其沃森产品所使用的术语，因为早在2011年，当早期版本在《危险边缘(Jeopardy)》节目一举获胜时，“人工智能”一词还未流行开来;在数十年来，人工智能已经经历了炒作和摒弃的交替时期。

沃森(Watson)不是一个单一的工具。它是模型和API的组合，你也可以从其它供应商(如Salesforce，Twilio，谷歌和微软)获得。这些为你提供所谓的“认知”服务，如图像识别，包括面部识别，语音(和扬声器)识别，自然语言理解，情感分析以及其他认知能力的识别API。无论是沃森还是微软的认知服务，认知术语真的只是围绕一系列(非常有用的)技术的营销品牌。你可以使用这些API从现有的常见问题页面创建一个聊天室，可以回答文本查询，还可以识别产品的照片以提供正确的支持信息，或使用货架标签的照片来检查库存水平。

很多“认知”API使用深度学习，但是你不需要知道它们的构建方式，因为很多是作为你从自己的应用程序调用的REST API。有些让你从自己的数据创建自定义模型。Salesforce Einstein拥有自定义的图像识别服务，微软的认知API(Cognitive API)可让你为文本、语音、图像和视频创建自定义模型。

这通过迁移学习变得更容易，与其说它是一种技术不如说它是深度网络的副作用。受训来做一件事情的深度神经网络，比如英语和普通之间的翻译一样，被发现学习了第二个任务，比如更有效地在英语和法语之间翻译。这可能是因为代表大量和大的词之间的数学关系在某种程度上在语言之间是常见的，但是我们并不确切地知道。

迁移学习还未得到充分了解，但它可以让你从较小的训练集中获得良好的效果。微软的自定义视觉服务(Microsoft Custom Vision Service)用迁移学习在短短几分钟内对每个类别使用30到50张图像来训练图像识别器，而不是通常所需要的数千个精确结果。

建立自己的机器学习系统

如果你不想要预先构建的API，并且你有可要处理的数据，那么有很多用来构建系统学习的工具，从R和Python脚本到使用Spark和Hadoop的预测分析到具体的人工智能工具和框架。

你可以使用云中的机器学习服务来构建数据模型，而不是设置自己的基础设施。使用云服务，你不需要安装一系列工具。此外，这些服务还内建了获得成功结果所需的更多专业技能。

亚马逊机器学习(Amazon Machine Learning)提供了多种机器学习模型，你可以使用存储在S3，Redshift或R3中的数据，但是你不能导出模型，训练集大小相当有限。微软的Azure ML Studio具有更广泛的算法，包括深度学习，以及R和Python包，以及与它们一起工作的图形用户界面。它还提供了使用Azure Batch定期加载极大训练集的选项，你可以使用经过培训的模型作为API从您自己的程序和服务中调用。还有诸如SQL Azure数据湖等云数据库中的图像识别等机器学习功能，只要有数据就可以搞机器学习。

监督式学习

很多机器学习技术使用监督学习，其中功能来自标记的训练数据。开发人员选择并标注一组训练数据，将一部分数据用于测试，并从机器学习系统中得到结果，以帮助其改进。训练过程可能很复杂，结果往往是概率性的，例如，有30%的可能性认出了一只狗，而有80%的可能性认为它是一只猫，甚至有2%确信它发现了一辆自行车。开发人员给系统的反馈可能是1和0之间的分数来表示与正确答案的接近程度。

不要将系统训练得太契合于训练数据，这点很重要;这就是所谓的过度拟合，这意味着系统将无法推广以应对新的输入。如果数据随着时间的推移发生显著变化，那么由于某些研究人员将称之为“机器学习衰退(ML rot)”的东西，开发人员将需要重新训练系统。

机器学习算法——何时使用它们

如果你已经知道数据集中所有项目的标签，将标签分配给新示例是分类问题。如果你想根据房屋的大小来预测房屋的售价，那么这是一个回归问题，因为房价是一个连续而不是离散的类别(预测房屋是否会出高于或低于要价出售是一个分类问题，因为这是两个不同的类别)。

如果你不知道所有标签，你就不能使用它们进行培训;相反，在监督学习中，给结果评分，让你的系统制定使其弄清楚答案正确与否的规则。最常见的无监督学习算法是聚类，它通过查看数据中的变量之间的关系来获取数据的结构。亚马逊的能告诉你“购买了某一物品的人还购买了什么”的产品推荐系统就使用了无监督学习。

在强化学习的情况下，系统通过查看发生的情况来学习。你设置了一套清晰的奖励，以便系统可以判断其行动有多成功。因为有明显的回报，强化学习非常适合游戏。谷歌的DeepMind AlphaGo使用强化学习来学习围棋(go)，微软的Malmo项目系统允许研究人员使用《我的世界(Minecraft)》作为强化学习环境，并且使用OpenAI的强化学习算法构建的机器最近在Valve的Dota 2游戏中击败了几名排名最高的玩家。

创造准确有用的奖励的复杂性限制了强化学习的使用，但微软一直在使用一种特定形式的强化学习，称为情境拉霸(基于多臂老虎机的概念)，以显著提高在MSN上的点击率。该系统现在可用作微软的自定义决策服务API。微软还在试点项目中使用强化学习系统，如果信息不是你所需要的，客户服务聊天室可以监控他们的自动回复的有用程度，并提供给一个真实的人;人类代理也为机器人评分以帮助它改进。

结合机器学习算法以获得更好得结果

通常需要多种机器学习方法才能获得最佳效果;综合学习系统结合使用多机器学习技术。例如，在Go中击败专业人类棋手的DeepMind系统不仅使用强化学习，而且还监督深入学习，以从数以千计的人类棋手之间的Go比赛中学习。这种组合有时被称为半监督学习。

类似地，Microsoft Kinect用于识别人类动作的机器学习系统是通过组合的判别系统构建的——为了建造这个，微软租用了好莱坞的动作捕捉套件，提取骨架的位置并标记各个身体部位以便对身体处于各种已知姿势中的哪一种进行分类——以及生成系统，其使用每种姿势的特征的模型来合成数千个图像，以给予系统足够大的数据集来学习。

预测分析往往和不同的机器学习和统计方法结合起来;一个模型可能会评估一组客户流失的可能性，另一种模式预测你应该使用哪个渠道与每个人联系，并提供可能使其成为客户的优惠。

了解机器学习的缺点

因为机器学习系统没有被明确地编程来解决问题，所以很难知道系统是如何得到结果的。这也叫“黑匣子”问题，它可能会产生后果，特别是在受监管的行业。

随着机器学习的广泛应用，你将需要解释为什么机器学习驱动的系统会做他们所做的工作。有些市场——如住房、财务决策和医疗保健——已经有法规要求你对决定做出解释。你可能还需要算法透明度，以便审计机器学习性能。只有使用中的训练数据和算法的细节是不够的。深层次网络中存在很多层次的非线性处理，这使理解深层网络为什么做出特定的决定变得很困难。一种常见的技术是使用另一台机器学习系统来描述第一台机器的行为。

你还要意识到算法偏差的危险，例如机器学习系统加强了将男性与运动和女性与家务联系在一起的数据集中的偏见，因为所有体育活动的例子都包含男性，以及所有出现在厨房里的都是女性。或者当关联非医疗信息的系统对具有某种身体状况的人做出不利的决策时。

机器学习的能力取决于它所受训的模型的数据及其处理的数据，因此重要的是仔细检查你使用的数据。机器学习理解背景数据或概念的方式也和人不一样。例如，研究人员可以创建看起来像随机静态但被识别为特定对象的图片。

在很多识别和分类问题上，机器学习可以比人类更快更有效地解决，而且在可预见的未来，最好将机器学习看作是一套支持工作而不是替代工作的工具。

关键字：机器学习 CIO