当前位置:企业应用软件行业动态 → 正文

改进机器学习预防欺诈的9个实际行动

责任编辑:cres 作者:HERO编译 |来源:企业网D1Net  2019-11-22 13:06:34 原创文章 企业网D1Net

Ekata公司战略与运营副总裁Arjun Kakkar在一次特邀嘉宾的专访中,为企业的产品经理和业务领导者提供了9条实用可行的原则,帮助他们将机器学习用于欺诈检测。Arjun致力于推动电子商务、支付、市场和在线借贷等垂直领域的客户价值。
 
他表示,全球在线欺诈的损失成本如今已高达250亿美元,但是实际价值至少要高出20倍,因为网上交易者和金融机构经常会误以为欺诈而拒绝为合法客户服务,这是欺诈行为造成的结果。这种失误意味着在线商务的收入损失至少5000亿美元,更不用说更加宝贵的客户信任。
 
在线欺诈检测的独特特征包括可获得具有已知结果的大量多样数据集、重复模式以及需要快速决策的需求,使其成为机器学习(ML)的良好研究对象。实际上,在机器学习有望解决的许多问题中,在线欺诈检测已成为最早的成功案例之一。
 
通过一流的机器学习团队与许多全球贸易商和支付提供商的合作,Arjun为产品经理和业务负责人提供了以下9条切实可行的原则。
 
获得正确的欺诈信号和标签数据对于企业来说是最具挑战性的任务,但是如果做得正确,将为企业带来显著优势。
 
原则1:模型只与测试和验证集中的标签一样好
 
企业需要制定明确的欺诈定义,为其数据贴上标签,并确保每个标签都清晰地反映了既定的定义。机器学习方法通​​常可以容忍训练集中的随机标签错误,但很容易受到系统错误的影响。例如,客户将合法交易标记为欺诈的“友善欺诈”通常是随机的,但其他行为(例如人工代理的标签)可能是系统的。
 
与训练不同,团队必须尝试甚至修复测试和验证集中随机的标签,以使它们足够可靠以评估模型的质量。
 
原则2:获得独特功能将使欺诈者难以破解企业的模式
 
欺诈团队之间也在展开竞争,他们在重塑客户身份方面越来越成熟。捕获这些欺诈者的最佳方法是从多个供应商和合作伙伴收集独特的数据,并找到识别数字身份背后真正身份的独特属性。利用所有有助于风险信号传递的数据,其中包括设备、身份、个人和网络行为模式。
 
原则3:通过构建集中式数据存储库并确保其安全性,使数据成为真正的资产
 
集中式数据存储库将确保数据科学团队知道可用的资源并可以利用它。团队还必须致力于确保客户数据的安全。遵循与欧盟通用数据保护法(GDPR)一致的原则,例如收集组织将用于满足客户需求的数据,仅将其存储到防止欺诈所需的时间为止,并为客户提供对其数据的完全控制权。为了赢得客户的信任,企业需要真正相信这些原则。
 
将防止欺诈的机器学习系统视为人类的替代品是很诱人的。但根据经验,一流企业将继续让工作人员参与其中。
 
原则4:员工水平的表现仍然是黄金标准,将帮助团队调整模型
 
经验丰富的人工审核团队在人员层面的表现是对最佳可实现模型表现的合理估计。因此,模型训练错误与人为错误之间的巨大差距表明团队需要减少模型偏差。
 
原则5:有效的机器学习系统旨在与人类良好协作
 
良好的机器学习系统知道机器和人类的功能完全不同,因此可以利用这些差异。人类可以处理可能没有足够历史数据或者需要重大判断力的情况。例如,一家企业可能正在从新的地理位置获得订单或表现出独特的行为模式。在将结果推广到新的机器学习模型之前,让人类参与这些案例是值得的。
 
使用双向反馈来改善机器和人类的方面。人工反馈可改善模型偏差,并增强模型的可解释性。同时,机器学习模型可以提供更多信息,使人类的任务更简单,甚至有助于提高人类的技能。
 
原则6:发现并纠正模型中的人为偏见是团队的责任
 
机器学习系统的最大风险之一是,通过设计,它们利用历史数据进行推断。人们通常会标记数据。数据会反映出人类的偏见也就不足为奇了,团队有责任纠正这些偏见。
 
第一步是找出潜在的偏见来源,并在数据中明确寻找它们。验证和测试数据集是否代表真实分布(即没有样本偏差)?企业的团队是否在测试集中包括记录,以检查模型是否存在系统性偏见?从更简单、更透明、可解释且无偏见的模型开始,然后逐步过渡到复杂的模型。
 
机器学习是预防欺诈的强大工具,但如果操作不当,则很容易建立起与目标相反的模型。开发组织的机器学习技术至关重要。
 
原则7:机器学习模型需要一致的目标和符合总体策略的指标
 
选择一种将措施和抵消措施结​​合使用的度量标准,以防止在某个方向上发生过度反应。例如,团队可以决定增加模型正确捕获的欺诈部分(最大程度地提高“召回率”),同时确定该模型错误地将合法客户标记为欺诈部分的上限(上限为“误报率”)。
 
最后,为了使这些数字具体化,根据拒绝良好客户的成本和身份不明的欺诈行为成本来估计业务的成本。
 
原则8:开发多种模型并经常进行重新培训以与欺诈的真实世界保持一致
 
机器学习模型试图模仿现实世界。首先,欺诈特征在不同地区和欺诈类型之间可能有很大差异。如果性能更好,则构建特定于地理和用例的模型。其次,现实世界是动态的,欺诈者不断发展其战术。因此企业保持恒定的新数据流以重新训练模型,以确保模型输出的质量不会随时间降低。
 
原则9:向其他具有类似欺诈特征的机器学习用例学习
 
团队在欺诈中面临的几乎所有机器学习建模问题在其他领域都有类似的解决方案。
 
以欺诈中类别分布不平衡为例,其中数据中几乎所有记录都属于非欺诈类别。此问题类似于产品缺陷检测之类的情况。或考虑生产中的欺诈模型问题使输出产生偏差,从而影响获取更多数据以进行持续学习的能力。其评估问题是在线广告行业面临的一个问题,团队需要找到一些想法进行试验。
 
为了从机器学习中获得真正的价值以进行欺诈检测,企业的团队必须将机器学习视为组织能力,它要求产品、工程、数据科学和隐私团队协同工作。企业的成功将取决于实施能够解决实际业务问题的工作模型。企业从小处开始进行尝试,然后逐步增强自己的能力。随着时间的推移,企业的业务将会蓬勃发展。
 
版权声明:本文为企业网D1Net编译,转载需注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

关键字:机器学习

原创文章 企业网D1Net

x 改进机器学习预防欺诈的9个实际行动 扫一扫
分享本文到朋友圈
当前位置:企业应用软件行业动态 → 正文

改进机器学习预防欺诈的9个实际行动

责任编辑:cres 作者:HERO编译 |来源:企业网D1Net  2019-11-22 13:06:34 原创文章 企业网D1Net

Ekata公司战略与运营副总裁Arjun Kakkar在一次特邀嘉宾的专访中,为企业的产品经理和业务领导者提供了9条实用可行的原则,帮助他们将机器学习用于欺诈检测。Arjun致力于推动电子商务、支付、市场和在线借贷等垂直领域的客户价值。
 
他表示,全球在线欺诈的损失成本如今已高达250亿美元,但是实际价值至少要高出20倍,因为网上交易者和金融机构经常会误以为欺诈而拒绝为合法客户服务,这是欺诈行为造成的结果。这种失误意味着在线商务的收入损失至少5000亿美元,更不用说更加宝贵的客户信任。
 
在线欺诈检测的独特特征包括可获得具有已知结果的大量多样数据集、重复模式以及需要快速决策的需求,使其成为机器学习(ML)的良好研究对象。实际上,在机器学习有望解决的许多问题中,在线欺诈检测已成为最早的成功案例之一。
 
通过一流的机器学习团队与许多全球贸易商和支付提供商的合作,Arjun为产品经理和业务负责人提供了以下9条切实可行的原则。
 
获得正确的欺诈信号和标签数据对于企业来说是最具挑战性的任务,但是如果做得正确,将为企业带来显著优势。
 
原则1:模型只与测试和验证集中的标签一样好
 
企业需要制定明确的欺诈定义,为其数据贴上标签,并确保每个标签都清晰地反映了既定的定义。机器学习方法通​​常可以容忍训练集中的随机标签错误,但很容易受到系统错误的影响。例如,客户将合法交易标记为欺诈的“友善欺诈”通常是随机的,但其他行为(例如人工代理的标签)可能是系统的。
 
与训练不同,团队必须尝试甚至修复测试和验证集中随机的标签,以使它们足够可靠以评估模型的质量。
 
原则2:获得独特功能将使欺诈者难以破解企业的模式
 
欺诈团队之间也在展开竞争,他们在重塑客户身份方面越来越成熟。捕获这些欺诈者的最佳方法是从多个供应商和合作伙伴收集独特的数据,并找到识别数字身份背后真正身份的独特属性。利用所有有助于风险信号传递的数据,其中包括设备、身份、个人和网络行为模式。
 
原则3:通过构建集中式数据存储库并确保其安全性,使数据成为真正的资产
 
集中式数据存储库将确保数据科学团队知道可用的资源并可以利用它。团队还必须致力于确保客户数据的安全。遵循与欧盟通用数据保护法(GDPR)一致的原则,例如收集组织将用于满足客户需求的数据,仅将其存储到防止欺诈所需的时间为止,并为客户提供对其数据的完全控制权。为了赢得客户的信任,企业需要真正相信这些原则。
 
将防止欺诈的机器学习系统视为人类的替代品是很诱人的。但根据经验,一流企业将继续让工作人员参与其中。
 
原则4:员工水平的表现仍然是黄金标准,将帮助团队调整模型
 
经验丰富的人工审核团队在人员层面的表现是对最佳可实现模型表现的合理估计。因此,模型训练错误与人为错误之间的巨大差距表明团队需要减少模型偏差。
 
原则5:有效的机器学习系统旨在与人类良好协作
 
良好的机器学习系统知道机器和人类的功能完全不同,因此可以利用这些差异。人类可以处理可能没有足够历史数据或者需要重大判断力的情况。例如,一家企业可能正在从新的地理位置获得订单或表现出独特的行为模式。在将结果推广到新的机器学习模型之前,让人类参与这些案例是值得的。
 
使用双向反馈来改善机器和人类的方面。人工反馈可改善模型偏差,并增强模型的可解释性。同时,机器学习模型可以提供更多信息,使人类的任务更简单,甚至有助于提高人类的技能。
 
原则6:发现并纠正模型中的人为偏见是团队的责任
 
机器学习系统的最大风险之一是,通过设计,它们利用历史数据进行推断。人们通常会标记数据。数据会反映出人类的偏见也就不足为奇了,团队有责任纠正这些偏见。
 
第一步是找出潜在的偏见来源,并在数据中明确寻找它们。验证和测试数据集是否代表真实分布(即没有样本偏差)?企业的团队是否在测试集中包括记录,以检查模型是否存在系统性偏见?从更简单、更透明、可解释且无偏见的模型开始,然后逐步过渡到复杂的模型。
 
机器学习是预防欺诈的强大工具,但如果操作不当,则很容易建立起与目标相反的模型。开发组织的机器学习技术至关重要。
 
原则7:机器学习模型需要一致的目标和符合总体策略的指标
 
选择一种将措施和抵消措施结​​合使用的度量标准,以防止在某个方向上发生过度反应。例如,团队可以决定增加模型正确捕获的欺诈部分(最大程度地提高“召回率”),同时确定该模型错误地将合法客户标记为欺诈部分的上限(上限为“误报率”)。
 
最后,为了使这些数字具体化,根据拒绝良好客户的成本和身份不明的欺诈行为成本来估计业务的成本。
 
原则8:开发多种模型并经常进行重新培训以与欺诈的真实世界保持一致
 
机器学习模型试图模仿现实世界。首先,欺诈特征在不同地区和欺诈类型之间可能有很大差异。如果性能更好,则构建特定于地理和用例的模型。其次,现实世界是动态的,欺诈者不断发展其战术。因此企业保持恒定的新数据流以重新训练模型,以确保模型输出的质量不会随时间降低。
 
原则9:向其他具有类似欺诈特征的机器学习用例学习
 
团队在欺诈中面临的几乎所有机器学习建模问题在其他领域都有类似的解决方案。
 
以欺诈中类别分布不平衡为例,其中数据中几乎所有记录都属于非欺诈类别。此问题类似于产品缺陷检测之类的情况。或考虑生产中的欺诈模型问题使输出产生偏差,从而影响获取更多数据以进行持续学习的能力。其评估问题是在线广告行业面临的一个问题,团队需要找到一些想法进行试验。
 
为了从机器学习中获得真正的价值以进行欺诈检测,企业的团队必须将机器学习视为组织能力,它要求产品、工程、数据科学和隐私团队协同工作。企业的成功将取决于实施能够解决实际业务问题的工作模型。企业从小处开始进行尝试,然后逐步增强自己的能力。随着时间的推移,企业的业务将会蓬勃发展。
 
版权声明:本文为企业网D1Net编译,转载需注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

关键字:机器学习

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^