什么是DataOps?相互协作的跨职能分析

责任编辑：cres 作者：Thor Olavsrud |来源：企业网D1Net 2017-11-29 10:35:48 原创文章企业网D1Net

DataOps(数据操作)是一门新兴学科，将DevOps团队与数据工程师和数据科学家角色结合在一起，提供一些工具、流程和组织结构服务于以数据为中心的企业。

什么是DataOps?

“DevOps的发展已经成为现代趋势，但越来越多的人将某些数据科学功能添加到系统和发展中，因此，您的DevOps团队中需要有数据思维的人才。”MapR Technologies公司首席应用程序设计师特德·邓宁(Ted Dunning)，他也是《机器学习物流：现实中的模型管理(Machine Learning Logistics: Model Management in the Real World)》一书的合著作者，他说道。

DataOps的原则

和DevOps一样，DataOps方法也从敏捷方法中获得了启发。DataOps方法很重视持续交付分析见解，其主要目的是满足客户需求。

DataOps团队重视分析工作。他们通过所提供的见解来衡量数据分析工作的性能。DataOps团队会接受变化，并始终努力来了解不断变化的客户需求。

DataOps团队是多个团队。他们围绕多个目标进行自我组织，努力减少“英雄主义”，以有利于团队和流程的可持续性和可扩展性。

DataOps团队自始至终来精心安排数据、工具、代码和环境。可重复的结果是至关重要的。DataOps团队倾向于将分析管道视为类似于精益生产线。

DataOps适用于哪些地方

邓宁说，当今的企业越来越多地将机器学习技术应用到大量的产品和服务中，而DataOps是一种适合于来支持机器学习技术端到端需求的方法。

“例如，这种方式使得数据科学家更有可能获得软件工程的支持，以便在部署期间提交模型进行操作时能提供所需的东西，”邓宁和MapR公司首席技术专家(及合著作者)艾伦·弗里德曼(Ellen Friedman)共同写道。

他们补充道：“DataOps方法不仅限于机器学习。这种组织方式对于任何面向数据的工作都很有用，可以更轻松地利用所构建的全局数据结构的优势。”

他们还指出DataOps非常适用于微服务架构。

DataOps的实际使用

邓宁和弗里德曼表示，当企业采用这些新兴的数据技术时，企业必须改进他们的方法来提高处理大规模数据的能力，并能够对实际发生的事件进行应对。

他们写道：“传统上，孤立的角色被证明过于僵化和迟缓，很难适应正在经历数字化转型的大数据组织。这就是DataOps工作方式有所作为之处。”

DevOps方法汇集了软件开发和运营方面的专家，使开发工作与业务目标更加一致，缩短开发周期并提高部署效率。它更强调具有一个跨职能团队，跨越“各个技能领域”如运营、软件工程、架构和规划以及产品管理等。DataOps将数据科学和数据工程角色增加进来，并组合在一起，为了增加开发人员、运营专业人员和数据专家之间的协作和沟通。

邓宁强调说，实现DataOps所承诺的一致性是需要将数据科学家纳入到DataOps团队中。

邓宁说：“我认为这里要做的最重要的事情就是不要坚持在传统象牙塔组织里那样的做法，即让数据科学家与开发团队相脱离。您可以采取的最重要的一步就是将数据科学家真正地纳入DevOps团队，当数据科学家与团队同吃同住，听到同样的抱怨时，他们自然会使工作保持一致。”

他补充说：“别把一件事情分离开来。他们需要倾听来自一线的评论，推荐相同的解决方案，进行相同的分类处理。所以数据科学家的加入是关键的一步。”

但是，邓宁还指出，数据科学家不一定始终包含在DataOps团队中。

邓宁说：“通常情况下，数据科学家在一段时间内加入到团队中。他们的能力和识别力开始削弱，然后团队中的某个人会承担数据工程师的角色，这是一名低成本的数据科学家。实际上，数据科学家加入团队一段时间后会离开，这是一个流动的状态。”

如何组建一个DataOps团队

组建DataOps团队并不一定意味着您必须聘请新的专家。弗里德曼指出，许多企业已经在现有的DevOps团队中拥有DataOps团队的核心人员。下一步是确定需要进行数据密集型开发的项目和选定具有数据培训背景的人员。这个人甚至有可能是一名数据工程师，而并非是全面的数据科学家。

弗里德曼说：“如果你需要这些拥有不同技能的人才，并要将他们组合在一起来完成这个共同的目标，这并不意味着你必须雇用一大堆人来担任这些工作角色。通常你只需要雇佣那些有关键技能的人员，进行重新组合，以了解关键角色是什么。”

她说，重要的工作是改善具有不同技能成员之间的合作，以提高效率，并且更好地利用成员的时间和专业知识。

邓宁和弗里德曼在书中写道：“在大型项目中，某个特定的DataOps角色可能由多个人担任，但也有一些人会担任多个角色，这也很普遍。数据操作和软件工程技能可能会有角色重叠，具有软件工程经验的团队成员也许可胜任数据工程师的工作。通常数据科学家具有数据工程技能，但是很少见到数据科学和数据操作之间的角色重叠。”

邓宁和弗里德曼说，DataOps团队拥有一个共同目标也是非常关键的，该目标就是他们所支持的服务的数据驱动需求。

邓宁说：“有了工程团队和优秀的工程师，你需要做的就是设定好目标。一旦有了一个共同的目标，就可以解决问题了，那么团队应经常组织在一起解决这些问题。当不同的人看到问题的不同方面时，困难就会出现。数据操作人员会担心在一段时间内你获得的答案是否具有可靠性，而数据科学人员往往把注意力集中在答案的准确性上。此时已经存在一些分歧，但如果他们希望解决同样的问题，那么他们就愿意就如何解决这一问题进行妥协，我认为这是一个很容易建立起来的群体结构。”

关键字：CIO