当前位置:大数据业界动态 → 正文

使用“伪造”数据是消除大数据隐私问题的关键

责任编辑:cres 作者:Steve Jones 译者:HERO |来源:企业网D1Net  2017-05-18 10:09:16 原创文章 企业网D1Net

在数据分析和机器学习技术进步的前沿世界,大数据正在成为该过程的关键依据。然而,大多数组织没有足够的内部专业知识来处理算法开发,因此必须外包其数据分析。这引起了许多关于对外传播敏感信息的担忧。
 
麻省理工学院的研究人员提出了一个解决这些隐私问题的新颖解决方案。他们的机器学习系统可以创建不包含真实数据的“合成数据”的数据集,并可以安全地分发给外部人员进行开发和教育。
 
合成数据是原始数据集的结构和统计模拟,但不包含有关组织的任何真实信息。然而,它在数据分析和压力测试中的表现相似,从而使其成为数据科学领域开发算法和设计测试的理想基础。
 
它是如何工作的
 
由Kalyan Veeramachaneni领导的麻省理工学院研究人员提出了一个称为合成数据库(SDV)的概念。这描述了从原始数据集创建人工数据的机器学习系统。目标是能够使用数据来测试算法和分析模型,而不涉及所涉及的组织。他概括说:“在某种程度上,我们正在使用机器学习来实现机器学习”
 
合成数据库(SDV)使用称为“递归条件参数聚合”的机器学习算法实现这一点,利用数据的分层结构并捕获多个字段之间的相关性,以产生数据的多变量模型。该系统学习该模型,并随后生成一个完整的合成数据数据库。
 
为了测试合成数据库(SDV),使用反调试技术对五种不同的公共数据集进行合成数据生成。三十九名自由数据科学家开发了数据预测模型,以确定合成数据和实际数据之间是否存在显著的差异。其结果是结论性的。15个测试中的11个在实际和合成数据的预测建模解决方案中没有显著差异。
 
合成数据库(SDV)的优点是它可以复制数据集中的“噪点”,以及任何丢失的数据,使得合成数据集模型在统计学上是相同的。此外,人造数据可以根据需要容易地缩放,使其成为通用的数据。
 
人们一直在寻找的解决方案?
 
从分析中得出的推论是,在没有安全性影响的情况下,实际数据可以被软件测试中的合成数据成功地替代,并且合成数据库(SDV)是合成数据生成的可行解决方案。
 
作为Tableau 2017年白皮书所预测的下一件大事,大数据位于高科技的前沿和中心。因此,能够安全可靠地使用数据的需要变得越来越重要。麻省理工学院似乎已经通过采用合成数据库(SDV)避免了这些隐私问题,并确保数据科学家可以设计和测试方法,而不会侵犯真实人士的隐私。
 
这种原型有潜力成为一种有价值的教育工具,不用担心学生对敏感信息的暴露。通过这种创造性的建模方法,促进学习,这个阶段将以有效的方式教授和培育下一代数据科学家。
 
麻省理工学院的模型似乎已经有了答案,特别是考虑到范式测试的成功,在理论上它是完美的。研究人员声称,它将通过否定“隐私瓶颈”来加快创新速度。实际上,这还有待观察。

关键字:大数据

原创文章 企业网D1Net

使用“伪造”数据是消除大数据隐私问题的关键 扫一扫
分享本文到朋友圈

关于我们联系我们版权声明友情链接广告服务会员服务投稿中心招贤纳士

企业网版权所有©2010-2018 京ICP备09108050号-6

^