如何利用人工智能和自动化大规模识别敏感数据

责任编辑：cres 作者：Helga Labus |来源：企业网D1Net 2021-09-29 10:28:29 原创文章企业网D1Net

人工智能敏感信息检测服务商Text IQ公司首席执行官Apoorv Agarwal日前在接受行业媒体采访时，对非结构化数据面临的潜在风险以及利用人工智能和自动化技术大规模识别敏感数据进行了分析和阐述。

当企业试图解决漏洞和勒索软件攻击时，他们往往忽略了隐藏在其数据中的敏感信息。出现这种情况的主要原因是什么?

Agarwal：在理想情况下，企业应该掌握敏感信息在其拥有的数据中的位置。一般来说，企业将会长时间保留他们收集的信息，即使这些信息对他们没有真正的用处。我认为这归结为更广泛的数据治理问题。

如果没有实现一定程度的自动化，就不可能有强大的数据治理。例如，企业生成的数据量呈指数级增长，依赖于工作人员对隐藏在其数据库中的所有未被发现的敏感信息进行评估，而且在通常情况下，非结构化格式的数据需要进行处理，因此无法大规模地开展工作。

数据泄露和勒索软件攻击的数量将持续增长，但企业可以利用人工智能技术应对，这使他们能够主动大规模识别敏感数据和个人数据。一旦识别了这些数据，他们就可以选择编辑、删除、加密或采取任何必要的措施进行保护，以确保不会落入居心不良的人的手中。

非结构化数据如何构成风险以及可以采取哪些措施?

Agarwal：80%以上的企业数据是非结构化的——其庞大的攻击面使其非常容易成为网络攻击者的目标。其次，这种非结构化数据充满了各种类型的敏感信息：商业秘密、个人信息、健康信息、知识产权等;例如，没有人能够构建包含商业秘密的结构化数据库，更有可能散布在电子邮件、聊天记录、Excel表格和其他形式的非结构化数据中。

非结构化数据带来的挑战是数据量巨大，找到其中的敏感信息就像大海捞针一样，因此需要采用可扩展的机器学习技术。

自动化是唯一的出路还是人为因素仍然有价值?

Agarwal：我认为数据的增长速度显然比人口增长的速度更快。如果没有足够的人力，就没有足够的能力来处理任务的数量和复杂性。

我认为同样重要的是要注意，采用人工智能技术或机器人并不是只需按一下按钮就可以自动完成这些任务，确实需要人类的帮助。而这项工作不能单独由机器或人类完成。

能否解释一下人工智能是如何识别和保护敏感信息的吗?

Agarwal：人工智能不会保护敏感信息，但是会识别。一旦识别出敏感信息，企业就可以通过删除、编辑、加密或更改对它的访问控制来采取措施进行保护。

其挑战在于识别本身。在识别方面，如今采用的是一些过时的方法和技术，例如RegEx和搜索词。除了速度慢且可扩展性不高之外，这些劳动密集型方法产生的结果可能并不准确。

但并非每个9位数字都是社会安全号码(SSN)。另一方面，人工智能系统可以查看信息所在的场景，以更准确地确定信息是否敏感。例如电子邮件。在分析电子邮件的敏感信息时，人工智能能够考虑场景，例如谁写的、谁获得、谁被复制到电子邮件链中的人之间的关系网络，以确定一些电子邮件是否敏感。

在理论上，人类可以对所有这些场景进行评估和衡量，但没有足够的人手来实现这一点;此外，虽然人类不擅长计算任务，但更擅长抽象思维。

企业保护数据的方式可能对其整体业务和声誉产生重大影响。您认为他们对此有多了解?您认为应该改进哪些方面?

Agarwal：很多企业对于数据泄露对整体业务和声誉带来的损失和影响非常了解。没有哪一家企业认为它完全不受数据泄露的影响。企业董事会成员了解这些非常重要。

这是可以改进的地方。长期以来，很多企业一直依赖数据丢失防护、搜索词和人工审核。他们真的需要转向并利用人工智能等新技术。