数据分析趋势的十热五冷

责任编辑：cres 作者：Martin Heller |来源：企业网D1Net 2017-08-11 11:18:58 原创文章企业网D1Net

大数据、机器学习、数据科学——数据分析革命正在迅速发展。让你的商业分析师/商业智能专业人士(BA/BI pros)在数据分析的最新技术和策略上保持领先。

数据分析正在迅速成为IT的命脉。大数据、机器学习、深度学习、数据科学——分析大量数据的方法和技术的范围正在迅速扩大。为了深入了解客户行为、系统性能和新的收益机会，你的数据分析策略将受益于最新的数据分析趋势。

下面一起来看看数据分析技术、方法和策略，以及开始降温的曾经炙手可热的数据分析趋势。从业务分析师到数据科学家，每一个与数据打交道的人都受到数据分析革命的影响。如果你的组织希望利用数据分析实现可操作的智能，则数据分析趋势的以下热点指标应成为你的向导。

升温：自助式商业智能(BI)

谁：商业分析师/商业智能(BI / BA)专业人士、管理者

通过Tableau、Qlik Sense、Power BI和Domo等自助式BI工具，管理人员可以按图形形式获取当前的业务信息。虽然IT一开始可能需要一定量的设置，但在添加数据源时，清理数据和创建分析的大部分工作都可以由商业分析师完成，并且分析可以随时从他们打开的最新数据自动更新。

管理者可以用图形化的方式与分析结果进行交互，以确定需要解决的问题。在商业智能生成的仪表板或有关销售数字的“故事”中，这可能意味着要深入了解业绩不佳的商店、销售人员和产品，或发现同比的同店比较。这些发现可能会反过来指导未来的存货水平、产品销售和促销活动决策、甚至在服务不足的地区建立额外的商店。

升温：移动仪表板

谁：商业分析师/商业智能专业人士、管理者、开发者

在管理人员很少在办公桌的世界里，管理工具需要对移动设备友好的仪表板提供有用和及时的帮助。大多数自助式商业智能工具已经具备这一功能，但并不是每一个关键的业务量度都必须通过商业智能工具。

例如，制造工厂可能会有一个专门的质量保证(QA)体系来监控所有生产线。所有工厂管理者都需要知道任何线路是否在事件发生的几分钟内已经偏离公差;这一切都可轻以松完地成，只需每分钟查询质量保证数据库的应用程序，更新并显示Shewhart控制图，并在生产线不符合规格时可选择性地发出警报。

降温：Hadoop

谁：数据科学家

Hadoop似乎是“我应该如何存储和处理真正的大数据”这个问题的答案。现在看起来更像是在“在变得不可能维护之前，你可以将多少个移动部件塞进系统里”的问题。

Apache Hadoop项目包括四个模块：Hadoop Common(实用程序)、Hadoop分布式文件系统(HDFS)、Hadoop YARN(调度程序)和HadoopMapReduce(并行处理)。人们通常使用一个或多个相关项目：Ambari(集群管理)、Avro(数据序列化)、Cassandra(多主机数据库)、Chukwa(数据收集)、HBase(分布式数据库)、Hive(数据仓库)、Mahout(机器学习和数据挖掘)、Pig(执行框架)、Spark(计算引擎)，Tez(用于替换MapReduce的数据流编程框架)和ZooKeeper(协调服务)。

如果这还不够复杂，还可以把Apache Storm(流处理)和Kafka(消息传输)算进来。现在考虑供应商的增值：亚马逊(Elastic Map Reduce)、Cloudera、Hortonworks、Microsoft(HDInsight)、MapR和SAP Altiscale。感到困惑了吗?

升温：R语言

谁：有强大的统计数据的数据科学家

数据科学家有很多使用统计方法分析数据的选择。最方便和最强大的方法之一是使用免费的R编程语言。R是创建可重复，高质量分析的最佳方法之一，因为与电子表格不同，R脚本可以被轻松审核并重新运行。R语言及其包存储库(package repositories)提供了广泛的统计技术、数据处理和绘图，以至于如果有技术存在的话，它就可能在R包中实现。R对机器学习的支持几乎一样强大，尽管它可能不是深层神经网络的首选，因为这需要比R目前所提供的计算性能更高。

R以免费的开源形式提供，它被嵌入到数十种商业产品，包括Microsoft Azure Machine Learning Studio和SQL Server 2016。

升温：深层神经网络

谁：数据科学家

最强大的深度学习算法是某些深层神经网络(deep neural network，DNN)，它们是由多层交替的线性和非线性处理单元(因此称为“深”)构建的神经网络，并且使用大规模算法和大量的训练数据进行训练。深层神经网络可能有10到20个隐藏层，而典型的神经网络可能只有少数几个。

网络中的层数越多，它可以识别的特征就越多。不幸的是，网络中的层数越多，则所需的计算时间越长，训练的难度越大。可用于创建深层神经网络的软件包包括Caffe，微软认知工具包(Microsoft Cognitive Toolkit)、MXNet、Neon、TensorFlow、Theano和Torch。

降温：物联网(IoT)

谁：商业分析师/商业智能专业人士、数据科学家

物联网(IoT)可能是炒得最热的一套技术。也可能是有史以来互联网安全发生的最糟糕的事情。

物联网已经被推崇为智能家居、可穿戴设备、智能城市、智能电网、工业互联网、联网车辆，联网健康、智能零售、农业和其它一系列应用场景。如果实施是安全的，则其中很多应用程序将是有意义的，但是大体上没有发生。

事实上，制造商经常犯基本的设计错误。在某些情况下，智能设备只有在连接到互联网并通达制造商的服务器时才工作。就像Sony Dash和早期的Nest温度计一样，当制造商终止产品支持时，这就成为一个显著的故障点(point of failure)。将接入远程互联网的服务器包含在控制回路中也会在控制回路中带来显着的、可变的延迟，这可能会引入不稳定性。

更糟糕的是，制造商在急于将他们的“物”连接到互联网时暴露出被黑客利用的漏洞。汽车已被远程接管，家用路由器已经被用在僵尸网络进行DDoS(分布式拒绝服务)攻击，公共电网在一些地区被关停……

使物联网设备安全需要付出什么代价吗?为什么厂商不注意?

在解决安全问题之前，物联网的数据分析前途是风险大于回报的。

升温：TensorFlow

谁：数据科学家

TensorFlow是谷歌的开源机器学习和神经网络库，它支撑着大部分(即便不是全部)谷歌的应用机器学习服务。(谷歌)翻译，(谷歌)地图和谷歌应用程序都使用运行在我们的智能手机上运行的基于TensorFlow的神经网络。TensorFlow是谷歌云自然语言(Google Cloud Natural Language)、谷歌语音(Speech)、谷歌翻译(Translate)和Vision的应用机器学习API的幕后支持者。

数据科学家一旦克服了学习框架的巨大障碍，他们就可以使用TensorFlow。TensorFlow具有强大的灵活性、真正的可移植性、结合研究和生产的能力、自动分化变量以及通过优先使用GPU而不是GPU的能力。向你的数据科学家推荐我的教程，或者让他们查看简化的Tensor2Tensor库以开始使用。

升温：MXNet

谁：数据科学家

MXNet(读作“mix-net”)是类似于TensorFlow的深度学习框架。它缺乏对TensorFlow的可视化调试，但为TensorFlow所缺少的张量计算提供了一种必要的语言。MXNet平台能立即将符号和命令式操作并行化，并且其调度程序之上的图形优化层使得符号执行速度更快，内存更高效。

MXNet目前支持在Python、R、Scala、Julia和C ++中构建和训练模型;经过训练的MXNet模型也可用于Matlab和JavaScript中的预测。不管你用什么语言来构建你的模型，MXNet都会调用优化的C ++后端引擎。

降温：批量分析

谁：商业分析师/商业智能专业人士、数据科学家

通宵运行批处理作业是我们在20世纪70年代所做的事情，当数据存在于9轨磁带上时，“主机”则切换到批量模式进行第三次转换时。在2017年，没有理由将就于一天的数据。

在某些情况下，一个或多个旧系统(在某些情况下可能追溯到20世纪60年代)只能在夜晚不被使用时运行分析或备份数据。在其它情况下则没有技术理由来运行批量分析，但是“我们一直这样做”。

你比那要更好，你的管理层理应得到最新的数据分析。

升温：微软认知工具包2.0(Microsoft Cognitive Toolkit 2.0)

谁：数据科学家

微软认知工具包(Microsoft Cognitive Toolkit，亦称CNTK 2.0)是一个统一的深度学习工具包，通过有向图(directed graph)将神经网络描述为一系列计算步骤。它与TensorFlow和MXNet有很多相似之处，尽管微软声称CNTK比TensorFlow更适用于循环网络，它有更容易集成到应用程序的推理支持，并且还具有高效的内置数据读取器，同时也支持分布式学习。

模型集(Model Gallery)目前有大约60个样品，其中包括过去十年赢得比赛的多数模型。认知工具包(Cognitive Toolkit)是微软小娜(Microsoft Cortana)、Skype实时翻译、必应(Bing)和一些Xbox功能的基础技术。

升温：Scikit-learn

谁：数据科学家

Scikits是以SciPy为基础构建的基于Python的科学工具箱，它是用于科学计算的Python库。Scikit-learn是一个专注于机器学习的开源项目，这一开源项目对范围蔓延(scope creep)和草率地使用未验证的算法十分小心。另一方面，它有很多可靠的算法供选择，它将Cython(Python到C编译器)用在需要速度的函数(如内部循环)。

Scikit-learn并不涵盖深度学习、强化学习、图形模型和序列预测的领域。它被定义为存在于Python中，因此它没有其它语言的API。Scikit-learn不支持PyPy，即快速即时编译Python实施，它也不支持GPU加速，除了神经网络，Scikit-learn几乎用不着它。

在我测试过的所有机器学习框架中，Scikit-learn在易开发性上得分最高。这些算法就像它所宣称的那样有效，API是一致和精心设计的，数据结构之间几乎没有“阻抗不匹配”。使用这样的库是一件乐事，其中功能已被彻底具体化，错误被彻底冲刷掉。

降温：Caffe

谁：数据科学家

曾经一度被看好的Caffe深度学习项目，原本是一个强大的图像分类框架，似乎要宣告停止。虽然该框架具有强大的图像识别卷积网络，对CUDA GPU的良好支持并有相当好的可移植性，但其模型通常需要过多的GPU内存，该软件有长达一年仍未修复的错误，其文档在最好的情况下也是有问题的。

Caffe在一年多以来一直在奋力完成仍有很多错误的候选版，于2017年4月终于达到1.0版。而到2017年7月，已有500多个公开的问题。局外人可能会得到这样一个印象：当深度学习社区转移到TensorFlow、CNTK和MXNet时，项目就停滞不前。

升温：Jupyter Notebooks

谁：数据科学家

Jupyter Notebook，最初叫做IPython Notebook，是一个开源的Web应用程序，它允许数据科学家创建和共享包含实时代码、方程式、可视化和说明文本的文档。用途包括数据清理和转换、数值模拟、统计建模、机器学习等等。

Jupyter Notebook已经成为很多数据科学家和机器学习(ML)研究人员的首选开发环境。它们是Azure，Databricks和其它在线服务(包括机器学习和大数据)的标准组件，也可以在本地运行。“Jupyter”是一个松散的首字母缩略词，意思是Julia、Python和R，三种流行的数据分析语言和Notebook内核的第一个目标，但是现在有大约80种语言的Jupyter内核。

升温：云存储和分析

谁：商业分析师/商业智能专业人士、数据科学家

有效分析的其中一句老话是“在数据所在的地方做计算”。如果你不遵守或不遵循此规则，如果数据跨越本地网络，你的分析可能会有很大的延迟，甚至，如果它通过互联网移动，延迟会更大。举例来说这就是为什么微软最近对SQL服务器(SQL Server)添加了R支持。

随着贵公司生成的数据量呈指数级增长，数据中心的容量可能不足，你将不得不添加云存储。一旦你的数据在云中，你的分析也应该在云中。最终，大多数新项目将在云中实施，现有项目将迁移到云端，将你的公司从资本性支出(CapEx)转移到运营成本(OpEx)世界。

降温：月度商业智能报告

谁：商业分析师/商业智能专业人士、数据科学家

在自助式商业智能变得流行之前，商业智能是IT的领域。管理人员描述了他们想要看到的内容，业务分析师将其转化为规范，商业智能专家创建报告以满足规范——鉴于积压的工作。一旦定义了报告，它就一直按月运行，所有可能的报告的打印输出都会在当月的第一天出现在管理层的收件箱，被浏览，在会议上进行讨论，并最终采取行动或忽视。

有时，行动将定义一个新的报告来回答现有报告提出的问题。整个周期将重新开始，一两个月后，新的报告将被添加到每月的打印输出。

不幸地，想要敏捷的企业无法在几个月内对环境和市场变化做出反应：提出问题和得到答案的时间应该是以秒或分而不是几周或几个月为单位。

关键字：CIO