智研院说 | 郭朝晖：工业大数据的理论体系

责任编辑：zsheng |来源：企业网D1Net 2018-08-06 20:38:54 本文摘自：走向智能论坛

近日，据《参考消息》报道，我国正在开展的全国网络安全执法大检查行动，首次开展了针对大数据安全的整治工作，具体包括大数据的采集、存储、应用、传输、销毁等全生命周期的监管、安全整治以及保护。该消息引发社会各界广泛关注。

在网络时代的今天，数据信息是否安全时刻触动着每个人的心弦。有关专家告诉《中国科学报》记者，尽管大数据已使用多年，但在技术监管领域，各环节仍存在诸多技术难点。

数据来源是否可靠待鉴定

据了解，此次大数据安全整治检查中一项重点工作是对合法采集内容与非法采集内容进行分类。其中，对于非法采集信息，将进行集中打击、销毁;对合法、合规采集的信息，则纳入保护监管范围。

浙江大学网络空间安全研究中心主任任奎表示，从网络安全的角度来看，首先，大数据在采集的过程中一方面需要考虑对数据源进行认证，确保数据本身的可靠性，如何在不增加负荷的情况下，特别是针对物联网中计算处理能力相对较弱的设备，实现有效的认证还有待研究。另一方面需要重视隐私保护，如何有效地对数据进行脱敏仍然存在挑战，当前比较热门的方法诸如差分隐私技术仍在积极发展中。

“公民的信息是公民的私有财产，如果不对数据进行溯源来证明数据来源渠道，那么很可能助长非法数据来源的气焰。”上海交通大学计算机科学与工程系教授朱浩瑾说。

中国科学院信息工程研究所DCS中心副研究员王跃武告诉记者，对于大数据而言，关键还是尽量将技术做到更完善，来保证数据分析结果的真实性、可靠性。

非关系型数据库为数据存储主流

提及目前大数据存储环节存在的问题，任奎告诉记者，目前的主要问题是如何在有效保护数据的前提下，完整支持传统的功能，诸如常见的搜索、排序、聚合分析等，当前相关安全技术与明文应用相比，尚存在功能和性能上的差距，有待提高。

“此外，还应该考虑如何进行安全去重等实际需求，从而减轻数据存储的压力，但这与‘备份’这种主动的防灾机制是不同的，相关安全技术在安全与性能的平衡方面仍然需要进一步研究。”任奎补充道。

采访中，针对大数据的存储技术，王跃武与任奎一致认为，从软件层面比较主流的是基于分布式系统的非关系型数据库。

据了解，非关系型数据库的优点主要在于易扩展、高性能等，但是也存在诸如标准化不足、功能支持不够丰富等缺点。常见的分类有键值存储、列存储、文档存储以及图存储。但是，如何权衡实际应用中的需求，比如系统的一致性、可用性以及分区容错性等，并提供定制化的技术，仍有大量工作要做。

如何避免“中间人”的攻击?

任奎表示，数据在网络中进行传输，也需要防止监听、篡改这类传统的“中间人”攻击等，因此端到端加密是很有必要的。但是，端到端加密技术仍然面临很多新型侧信道攻击来窥探隐私的挑战，尤其是最近一些以人工智能方法来展开的侧信道分析工作也说明了这一领域仍然有很多问题需要解决。“除此以外，端对端加密虽然好用，但同时也给网络入侵检测、加密数据防火墙的设计带来更多的挑战，如何安全、高效地支持这类应用还需要进一步研究。”任奎说。

360安全专家刘洋曾在接受记者采访时表示，传统的网络安全思路已经无法保障大数据时代的安全。传统网络安全的防护思路是划分边界，将内网、外网分开，业务网和公众网分离，用终端设备将潜在风险隔离。通过在每个边界设立网关设备和网络流量设备来守住“边界”，以期解决安全问题。但随着移动互联网、云服务的出现，移动终端在4G信号、Wi-Fi信号、电缆之间穿梭，网络边界实际上已经消亡。

大数据销毁并非简单的“删除”“清空”

在朱浩瑾看来，在我国，数据销毁仍是一个不小的问题。他指出，欧盟出台的《通用数据保护条例》中明文规定了用户的“被遗忘权”，即用户个人可以要求责任方删除关于自己的数据记录，而国内的法律无此规定。此外，企业究竟有无对数据进行销毁，在技术上并不好验证。“比如你的手机移动端可以进行一些设置，但是服务器端你怎么知道有没有销毁?”朱浩瑾补充道。

近日，走向智能研究院工业大数据首席专家郭朝晖博士撰文，通过不同视角梳理工业大数据的理论体系，强调工业大数据的终极目标是创造价值，方向是提升智能化，核心问题是知识的获取和应用。本文来自：蝈蝈创新随笔(guoguo_innovation)，经作者授权由《走向智能论坛》微信公众号推荐阅读。

郭朝晖：工业大数据的理论体系

走向智能研究院工业大数据首席专家郭朝晖博士

大数据的课程我讲过多次。除了给专业人人士讲，我个人几乎都不满意。有个问题一直困惑着我：“工业大数据”到底该讲什么，才不至于以偏概全?或者说，理论体系应该包含哪些内容? 下面是我想到的一点原则性的观点——可以从哪些视角看待它。

1、工业大数据的意义：从DIKW体系的角度看

我用DIKW体系的观点解释大数据的意义：将人类带入智能社会。大数据够把人类带入智能社会的核心优势在于“知识”的生产和应用。我们把智能理解为“感知、决策和执行”的统一，则大数据能很好地提供“感知”和“决策”所需要的知识。

2、大数据与业务系统的关系：概念。

很多人把数据和大数据混淆起来。一个典型的表现是把业务系统(如MES、ERP)的功能说成大数据的应用，似乎只要数据都是大数据。在我看来业务系统看数据，侧重数据用于完成特定业务的一次利用。数据作为信息的载体，数据的生命周期相对较短。

大数据则侧重数据的二次利用或重复利用，数据主要作为知识的载体。当然：大数据主要由业务系统(如ERP、MES)产生、积累，并最终服务于业务系统。

3、大数据的特征：甲乙方的视角

甲乙双方看待大数据的特征是不同的。

其中，甲方就是希望通过大数据创造价值、改进业务的业务人员，而乙方是帮助甲方实现目标的IT技术人员。

大数据的甲方视角：有三个特征(样本=全体等，后面详细展开)，都与获取知识相关。而获取了知识才能创造价值。大数据的乙方视角即“4V特征”。这四个特征关注的是IT技术人员数据处理的困难。

显然，乙方的工作应该服从甲方的业务需求。从这个意义上讲，乙方可能遇到4V涉及的困难、也可能遇不到，视甲方的实际情况而定。我讲的课主要是甲方视角，而IT专业人士讲的课主要是乙方视角。

4、大数据与知识获取的可行性(甲方视角、大数据特征)

(从甲方看)大数据的价值在于产生知识。人们经常提到的大数据的几个特征(样本=全体、相关非因果、混杂性)，都可以归结为便于获得知识。

l 样本=全体。解决知识的存在性问题。人类的一切知识都来源于历史;如果大数据能够完整地记录历史，就会蕴含知识。这一点强调的是样本分布的完整性。

l 不拘泥于因果。一般说法的是“相关关系而非因果关系”，而我将其改为“不拘泥于因果”。人类的知识有很多种，一种是说不出来的“默会知识”、一种是说的清楚的知识;而说得清楚的知识又包括理论知识和经验知识。其中，理论知识是讲究因果的;如果有把知识拘泥于因果则是不完备的。所以，“不拘泥于因果”解决了知识完的整性问题。

l 混杂性。本质是知识的可获得、可验证性，保证知识的质量。获得知识的一个本质要求是区分偶然联系和非偶然联系。混杂性可以用于解决这个问题。

换句话说，这三个特点保证了知识的存在性、完整性和可获得性。这就是大数据的意义所在。我们知道：智能制造需要知识才能形成闭环、互联网可以让知识的价值放大。所以，在智能制造、工业互联网的背景下，大数据的价值猛增。

5、知识类型的角度：多角度观察

我一直认为，大数据的价值在于获得、存储和运用知识的能力。而“知识”可以分类——可以从多个维度来看：

l 默会知识、经验知识、理论知识。

默会知识就是说不清楚、难以变成程序代码的感性知识。例如，从图像中人是一个人、下棋时对“势”的理解，都是感性知识。

感性知识之外的经验知识。这些知识说得清楚怎么做，不一定需要说明原因。如某种方法较好、哪条路走的快等——实际上好就是好了，不一定需要解释。

理论知识就是说得清楚原因、可以解释、甚至可计算的知识。

如前所述，大数据的优势在于可以更容易地获得默会和经验知识——这在过去是很难的。过去计算机用到的知识，往往需要人们写成代码——但这只是人们大脑中的一部分知识。单纯依靠理性知识，难以实现智能化。

l 正向知识(建模获得)、逆向知识(根因分析)。

从原因到结果的知识，我称其为正向知识。数学建模过程就是建立正向知识。从结果到原因的知识，我称为逆向知识。就是所谓的根因分析。

l 联系型知识、设计型知识。

因果知识、感性知识等体现的都是信息之间的联系。而设计型的知识指的是产品、工艺设计等。设计型知识占用的计算机存储量很大。在大数据时代，设计型知识容易存储、处理了。

6、大数据获得知识的途径：承载知识和提炼知识

用大数据获得知识有两种方式：一种就是数据本身就承载知识;一种是数据承载的是信息、需要从数据提炼出知识。

第一种典型的就是产品设计数据、各种标准、成功案例等。快速响应、个性化定制的前提和手段，就是这种知识的共享。

对于这些知识，有时候会面临的困难之一是如何找到它们。而找到这些知识本身就可能是需要获得的知识。典型的就是谷歌搜索。AI算法对解决这个问题可能是有用的。

第二种知识就是前面说的、通过建模或根因分析得到的知识。工业上对知识是有明确需求的、以至于难以达到;但机理却是相对明确的。我谈的很多方法论，其实就是在这两个方面的。下面还会提到。

7、通过大数据获得价值：转型升级才能创造蓝海

从某种意义上说，大数据创造价值就是促进知识创造价值。这些知识要用在提高质量、效率，降低成本等具体问题上，才能创造价值。

人们遇到的真正困惑，或许是如何找到这些“问题”。这些问题大概可以分成两类：一类是现有业务的痛点;第二类是转型升级以后面临新的要求。

对于业务痛点，往往是：“该做的都做了，剩下的往往是难以做的。”所以，难以找到合适的问题。对于这类困惑，大数据只是手段之一。往往要综合运用各种手段，大数据才能给创造价值。

对于第二类困惑，往往是业务本身或外部变化引发的。例如，采用了新的生产方式或技术手段、用户对质量要求提高了、数字化水平提高了、企业的业务重心转移了(创新和服务的比重增大了)等等。这些变化，我统称为“转型升级”。对于这类新的问题，大数据方法比较容易发挥作用。

数据分析曾经被认为是“没有办法的办法”。我把最近突然变热的原因，归结到智能制造相关技术引发的企业转型升级。这时，大数据技术进入了一个蓝海。大数据进入蓝海的原因，不仅是获得知识更方便等原因，更是知识的放大：把知识变成计算机可执行的代码、实现人机知识的共享，知识在互联网上实现共享，都会让知识的价值倍增。从而让“知识生产”的经济性大大提升。

总体上看，转型升级是战略问题，大数据应用是战术问题。战略重点的改变，才能给大数据的应用创造条件。否则，再好的技术都可能成为屠龙之技。

8、大数据建模分析的方法论：算法只是细节问题

谈到大数据分析与建模，很多人马上想到各种算法。在我看来，对数据分析与建模问题来说，算法问题其实是战术问题——也就是说，还需要有个战略问题，用来决定分析什么问题、分析问题的次序和路径等。CRISP_DM就是这个层面上的逻辑。我还想将其逻辑进一步简化：

1、明确业务需求;确定需求是真实的、一旦分析成功则具有可行性。

2、数据分析方法：解决问题的次序和切入点的问题。

3、分析问题的具体算法。如回归、决策树、深度学习等。

其中，前面两步做得好的话，后面的算法会比较简单。我总觉得，学术界把算法看得太重、过度重视算法技巧。技巧易于发论文，但不符合工程逻辑。

9、总结

人们关注工业大数据的终极目标是创造价值;方向是提升智能化;核心问题是知识的获取和应用。用好大数据的关键是搞清楚战略和战术的关系，也就是做什么事情、做事的次序和切入点等问题。单纯从分析方法或数据角度看问题，是看不清楚问题全貌的。

任奎指出，大数据的销毁是实现数据有效管理的必要过程，其过程并非简单的“删除”“清空”，如何保证指定的内容确实被“清除”与“销毁”，除了技术层面的发展，仍需要建立行之有效的规范，例如美国国防部的DoD 5220.22-M规范。

对此，王跃武表达了不同意见。他表示，大数据时代，数据来源是一个由线到面的过程，销毁从本质上来讲是一种消极的做法。“大数据如同金矿，我们尽力从中淘出金子，然后将其保护好，这才是我们该做的。”王跃武说。

关键字：数据工业

热文

高端访谈更多

CIO：全数字化时代，你做好转型准备了吗？

国药国际CIO冯伟：数字化转型要打破信息化建系统的固有思维

热点专题更多

飞利浦商用显示器:智能科技助力高效工作

企业出海

电子周刊

智研院说 | 郭朝晖：工业大数据的理论体系

责任编辑：zsheng | 2018-08-06 20:38:54 本文摘自：走向智能论坛

数据来源是否可靠待鉴定

非关系型数据库为数据存储主流

采访中，针对大数据的存储技术，王跃武与任奎一致认为，从软件层面比较主流的是基于分布式系统的非关系型数据库。

如何避免“中间人”的攻击?

大数据销毁并非简单的“删除”“清空”

郭朝晖：工业大数据的理论体系

走向智能研究院工业大数据首席专家郭朝晖博士

1、工业大数据的意义：从DIKW体系的角度看

2、大数据与业务系统的关系：概念。

大数据则侧重数据的二次利用或重复利用，数据主要作为知识的载体。当然：大数据主要由业务系统(如ERP、MES)产生、积累，并最终服务于业务系统。

3、大数据的特征：甲乙方的视角

甲乙双方看待大数据的特征是不同的。

其中，甲方就是希望通过大数据创造价值、改进业务的业务人员，而乙方是帮助甲方实现目标的IT技术人员。

4、大数据与知识获取的可行性(甲方视角、大数据特征)

(从甲方看)大数据的价值在于产生知识。人们经常提到的大数据的几个特征(样本=全体、相关非因果、混杂性)，都可以归结为便于获得知识。

l 混杂性。本质是知识的可获得、可验证性，保证知识的质量。获得知识的一个本质要求是区分偶然联系和非偶然联系。混杂性可以用于解决这个问题。

5、知识类型的角度：多角度观察

我一直认为，大数据的价值在于获得、存储和运用知识的能力。而“知识”可以分类——可以从多个维度来看：

l 默会知识、经验知识、理论知识。

默会知识就是说不清楚、难以变成程序代码的感性知识。例如，从图像中人是一个人、下棋时对“势”的理解，都是感性知识。

理论知识就是说得清楚原因、可以解释、甚至可计算的知识。

l 正向知识(建模获得)、逆向知识(根因分析)。

从原因到结果的知识，我称其为正向知识。数学建模过程就是建立正向知识。从结果到原因的知识，我称为逆向知识。就是所谓的根因分析。

l 联系型知识、设计型知识。

6、大数据获得知识的途径：承载知识和提炼知识

用大数据获得知识有两种方式：一种就是数据本身就承载知识;一种是数据承载的是信息、需要从数据提炼出知识。

第一种典型的就是产品设计数据、各种标准、成功案例等。快速响应、个性化定制的前提和手段，就是这种知识的共享。

7、通过大数据获得价值：转型升级才能创造蓝海

从某种意义上说，大数据创造价值就是促进知识创造价值。这些知识要用在提高质量、效率，降低成本等具体问题上，才能创造价值。

人们遇到的真正困惑，或许是如何找到这些“问题”。这些问题大概可以分成两类：一类是现有业务的痛点;第二类是转型升级以后面临新的要求。

总体上看，转型升级是战略问题，大数据应用是战术问题。战略重点的改变，才能给大数据的应用创造条件。否则，再好的技术都可能成为屠龙之技。

8、大数据建模分析的方法论：算法只是细节问题

1、明确业务需求;确定需求是真实的、一旦分析成功则具有可行性。

2、数据分析方法：解决问题的次序和切入点的问题。

3、分析问题的具体算法。如回归、决策树、深度学习等。

其中，前面两步做得好的话，后面的算法会比较简单。我总觉得，学术界把算法看得太重、过度重视算法技巧。技巧易于发论文，但不符合工程逻辑。

9、总结

关键字：数据工业

智研院说 | 郭朝晖：工业大数据的理论体系

相关文章

智研院说 | 郭朝晖：工业大数据的理论体系

网站地图

联系我们：

投稿信箱：