摘要:企业CIO们要如何掌控当前飞速发展的数据科学,并使之成为企业的核心能力呢?
企业CIO们要如何掌控当前飞速发展的数据科学,并使之成为企业的核心能力呢?
数据科学代表了由分析所推动的企业将进入下一个时代。利用其潜力,将有助于企业超越其竞争对手、提高效率、创造新的营收来源。成功的首席信息官将在其所服务的企业把数据科学从业务周边转移到核心,通过制定相关的架构和管理制定,提供对于最新技术的无限访问,可视化和可审计性,进而实现与企业业务的紧密配合。
今天的企业CIO们所面临的挑战是如何整合数据科学基础设施,以便在不限制数据科学家们的自由度和灵活性的前提下,提升企业对于数据的管理。而未能采取相应措施的CIO们或将导致整个企业的业务陷入麻烦的孤岛,甚至造成企业内部技术的不一致,超出了IT部门的管辖范围,甚而阻碍了企业从其数据科学投资中获取价值的机会。
部署实施了恰当平台的CIO将实现三赢:
实现更好的IT管理,同时推动创新,开拓新业务的价值
让数据科学家们获得自助服务和灵活敏捷性。
企业将从其数据科学投资中获得更大的回报。
何谓数据科学
数据科学将成为数据驱动的业务的下一个前沿,数十年来一直在不断发展。
上世纪80到90年代,数据存储、数据管理和数据仓储技术占主导地位,从而让彼时的企业组织掌握了存储数据的价值,以改善业务运营。
90年代后期,商务智能(BI)技术普遍兴起,使得企业组织通过数据管理技术所掌握的洞察分析力更进一步的为企业业务所充分运用。
随着诸如Hadoop等NoSQL技术的兴起,2000年代出现了“大数据”的繁荣,这些技术提供了开源的、低成本的数据处理和存储方法,使得无限期保持完整的保真度数据变得合理。
数据管理和分析的发展为数据科学铺平了道路,这一术语在2010年左右获得普及,有时也被称为“定量研究”或“决策科学”。数据科学包括机器学习(ML)、基于数据输入的预测计算过程,并随着数据的变化不断改进这些预测。机器学习只是数据科学广泛武器库中的一种武器。
数据科学将统计数据与计算机科学大大结合,以查找大数据中所蕴含的模式,并使用这些模式来预测结果或推荐企业应采取的行动或决策。
数据科学将推动企业从众多市场竞争者中脱颖而出
几十年来,企业组织一直渴望成为数据驱动型的企业。他们花费了多年的时间来开发技术,使得有效地捕捉、存储和管理来自当今世界的系统中的数据成为了可能。现在,鉴于这些数据的可用性,使得整个企业的每一名员工和每个部门都受益匪浅,进而推动企业迅速且积极地采用分析和数据科学。
数据科学被广泛认为应当成为一项核心的企业能力,其具有推动企业增加新的营收来源、自动化决策、改进产品和增强客户体验,进而提高企业竞争优势的潜力。这种潜力正在推动企业高管们在这方面进行大量投资。
IT企业有机会通过提供有助于使数据科学成为核心企业能力的基础设施来帮助企业实现这一投资的全部潜力,而不是收集孤立的人员和工具。
现代企业可以利用数据科学来:
预测并减少优秀员工的流失,以设法留住他们
预测客户的生命周期价值和客户流失
保持在竞争市场的领先
优化物流、运营和供应链
在其产品中建立预测功能(例如,提供建议),以改善客户体验
CIO的挑战
1、数据科学究竟有何不同?
前几代数据技术涉及集中的单片组件:例如一台BI服务器、数据库服务器、数据湖平台。而相比之下,数据科学工作则涉及数十种较小的工具和技术,其中许多工具和技术旨在在数据科学家工作站的本地使用。
除此之外,这些语言具有丰富的“软件打包”系统,为更专业化的目的提供了补充功能。许多这些软件包和工具是开源的,可以在线下载,数据科学家们定期下载数十个或数百个软件包以用于日常工作。而且在过去几年中,围绕这些工具和软件包的开放源码系统已经获得了蓬勃的发展,推动了快速的创新,频繁的更新,乃至每个月可提供全新的软件包。换句话说,现代数据科学的工作存在于数十个或数百个客户端,而不是集中在一台服务器中。
根据KDnugget网站在2017年的调研显示,数据科学中最流行的语言是Python和R。
2、数据科学在企业的混乱局面
数据科学家们渴望始终走在技术的最前沿,并利用这些最前沿的技术,通过各种工具和软件包进行实验。随着开源系统的创新更快速化,这一尝试的速度越来越快。结合基于客户的工作,大量易于访问的技术以及快速实验的愿望在大多数企业中创造了数据科学工具采用的混乱局面。不一致的技术分散在企业的不同部分,没有任何管理或透明度。
更糟糕的是,在许多企业中,“影子IT”正在逐渐增加,以支持这些系统。例如,一个小团队可能会在共享服务器上安装RStudio或Jupyter(都是免费下载的)以用于其团队的业务,而不考虑支持要求或与企业其他部分的一致性。
除了上述这类明显的问题之外,这种混乱的数据科学工作也造成了其他的一些问题:
重要的业务流程依赖于不可靠的基础架构。数据科学家通常会将计划的作业设置为在本地计算机上运行, 或者将共享服务器作为“实验室”或“开发”机器运行。一家财富十强的银行的关键业务流程依赖于数据科学家每天在其笔记本电脑上运行的模型——而这一现象只有当该数据科学家离职并且这台笔记本电脑被淘汰时才被发现。
计算成本可能过高而不受控制。与BI不同,数据科学涉及计算密集型技术,需要大功率机器和像GPU这样的专业资源。特别是在云环境中,混乱状况下的数据科学家们可能会无意中每天花费数千美元,使昂贵的机器不必要地运行。
高价值的知识产权保护不当。预测模型和分析可以将洞察力纳入竞争优势的关键,而且这些工作往往分散在网络驱动器、维基或Sharepoint站点。
数据科学家在DevOps工作方面浪费了时间。数据科学家是宝贵的,他们的薪酬相当高昂,但他们经常必须花费25%的时间来处理DevOps的任务,例如安装软件包并在机器之间迁移文件。
数据科学家浪费时间从事重复性的工作。 除了个别科学家们会将时间耗费在DevOps上之外,整个团队都可能浪费时间来追求重新发明的项目,或者不依赖企业过去所积累的知识,导致重复性的工作,因为过去的工作已经沉没,无法发现。
3、一个错误的困境
由于希望使用最新技术和最大的机器来开发比竞争对手更快的模型,或将使得企业的数据科学家们错误地站在创新的另一面。他们不太可能察觉到缺乏标准化的管理所导致的中长期后果,并将找到阻力最小的途径。如果IT部门无法提供他们所需要的,他们会自己发掘解决办法,并会无意中使企业长期存在风险。
上述将情况视为创新与安全之间的折中,是自然但却过于简单的。 这种框架将CIO限制在业务进展和竞争力之间,或认可混乱和风险。 这种框架是一个错误的困境,错过了调整利益相关者在整个业务中的目标和采取激励措施的一个机会。
CIO的机会
在上述挑战中也蕴涵了一个巨大的机会,为混乱的局面带来秩序,同时实现关键的业务转型。许多企业在成为真正数据驱动的企业的过程中,关键点在于,如果借助正确构建有效的数据科学功能将改变每一个业务。
1、创建集中式管理
如果说数据库和数据湖是现代企业的核心架构,那么数据科学时代的基础技术就是数据科学平台。与数据库不同,数据科学平台不能托管您的数据,而是存放与数据科学工作流相关联的工件和工作产品。
正如销售企业使用一款CRM创建成熟度和可扩展性一样,工程企业也使用版本控制,企业正在部署数据科学平台,以便在数据科学工作中创造更多的成熟度和管理规则。
数据科学平台允许IT部门能够轻易的在整个区域范围内控制数据科学工具、资产和基础设施。数据科学家们不是在不同的地方环境中工作,而是在一个中心的地方工作。为了支持涉及数据科学工作的用例范围,有效的数据科学平台将提供:
自助服务基础架构,所以数据科学家可以进行探索性的数据分析和模型开发,而无需配置和使用自己的计算资源。数据科学平台包括计算资源以及现代数据科学工作所需的语言,软件包和工具,以及关于资源使用情况的控制和报告来管理或归因成本。
部署,生产或运营完整模型的各种方法,并非驱动数据科学家建立影子系统。这包括在一个地方为计划的作业、报告、API或仪表板部署模型。数据科学平台还提供了非功能需求(安全性,HA等)的一致基准,以及为整个企业提供资产和利用透明度的目录。
围绕上述研究和部署工作过程中所创建的所有工件的治理,协作和知识管理。
2、赢在云中
数据科学工作流程非常适合在云中处理,因为它们可以从突发计算和GPU等专业资源中获益。
弹性计算和GPU访问与模型开发周期的庞大工作负载相一致。
通过数据科学平台为数据科学家提供自助云访问,缓解了DevOps的工作,并实现了他们所喜欢的自动弹性计算。
云中的数据科学平台为IT提供成本控制,资源跟踪和报告。
将数据科学工作迁移至集中式平台将有助于确保:
业务流程中涉及的任何模型或分析集中监控,即使其原始的创建者离开了企业。
数据科学家采用一致的标准化工具,减少了支持的负担和操作风险。
所有数据科学资产均获得许可,这些权限是可审计的。
3、与企业中的利益相关者保持一致
部署一款数据科学平台来集中数据科学工作将降低IT企业的风险及其所支持的负担。但是,获得企业其他部门的认同,特别是获得不太愿意讨论“数据管理”的数据科学家们的认可,将会变得至关重要。
CIO挑战的关键部分是向不同的利益相关方提供有效的定制沟通;使整个企业团结起来,使成功的数据科学成为共同的目标。这样做需要理解企业各个不同部门的独特动机和观点。幸运的是,可以通过传达各种各样的益处来调整各方的利益。
数据科学家
优先考虑的是通过在自助服务环境中利用最好和最新的工具尽可能快地进行创新:
推动数据科学的自助服务环境的益处,使他们能够独立地提供基础架构,通过自己选择的工具(例如Jupyter,RStudio)提升工作空间,并安全地尝试新的软件包和工具。他们不会浪费时间自行执行DevOps工作,他们不需要IT的支持。
他们可以更快地运行实验,并在同一个地方就他们正在开发的工作与其他人进行协作,从而节省时间。
业务执行高管
重点是通过快速整合洞察分析来改进业务流程,从数据科学投资中获得回报:
推动数据科学“记录系统”的概念(类似于CRM为销售企业所履行的职能)。
其集中了数据科学家和工程、IT和合规管理及设施团队中的其他业务利益相关者之间的所有工作流和通信,促进数据科学团队以更为成熟、可预测、可扩展的方式来提供价值。
更快的实验将推动更多的数据科学项目和研究突破完成得更快。
更容易实施或部署模型的方法将减少从洞察分析到产生影响的时间,以更快的速度将数据科学工作转化为业务价值的实现。
为数据科学家提供现代化工具和技术的灵活性将有助于在竞争激烈的领域招聘顶尖人才。
自动维护每款模型开发的完整审核日志将降低算法决策的运营和监管风险。
IT部门
优先考虑的是控制基础设施的成本,并保持单一的整合环境:
促进与现有系统和工具与基础设施业务管理流程平台集成整合的概念,提供实时评分、批次评分和应用程序托管选项。
可以通过跟踪硬件,工具使用和生产模型的更改来主动识别风险和问题。
使用昂贵的计算资源(特别是在云环境中)可以更容易地进行监控,限制和归因。
通过成功引导企业内部各个利益相关方关注和部署数据科学平台,每个各个利益相关方都将从中获益:IT管理团队通过治理和集中化成功地减轻风险,同时为数据科学家提供生产力的提升。建立数据科学平台使IT部门有望取得成功,有助于推动业务部门更快的创新