当前位置:大数据业界动态 → 正文

大数据在专卖稽查应用中的“三步走”

责任编辑:editor004 作者:胡孝斌 |来源:企业网D1Net  2017-07-14 11:29:42 本文摘自:东方烟草报

 

  和风

随着网络和信息技术的迅猛发展,当前卷烟违法活动呈现出组织网络化、行为隐蔽化、手段高科技化等特点,亟须专卖稽查人员转变执法理念、创新案件查办方式方法。这种情况下,大数据应用开始凸显其重要性。笔者认为,要进一步明晰大数据在专卖稽查中的具体应用思路,通过构建数据库、建立分析模型、指导稽查实践“三步走”,将大数据应用于情报建设、指挥决策和案件经营等方面。

第一步:构建数据库

高质量的数据库是大数据应用的前提和基础。专卖管理部门虽然在案件查办过程中积累了海量的数据,但种类相对单一。此外,各地在录入案件数据时,往往缺乏严格统一的标准,致使数据结构存在一定差异,对后期的数据对接、整合与分析来说都十分不利。

要扩大数据的来源。除了专卖历史案件数据和系统数据外,还要将一线业务条线在日常工作中收集的数据进行上报,包括情报信息、走访情况、客户资料、举报投诉、网上线索、对比分析结果等。数据的形式上,除了传统的文字信息外,还要注重搜集涉嫌违法的图片、视频、音频等数据。

要强化数据的整理。在补全缺失数据,删除虚假、矛盾、无意义数据的基础上,参照常用的情报分析“5W1H模型”,将数据录入结构划分为“Who(人或者组织基本信息)”“How(行为过程与方式)”“What(行为属性和特点)”“Which(涉事物品、交通工具、联系方式、账户信息等)”“When(时间)”“Where(地点)”六个部分,每个部分对应不同的数据。例如,“Who”中就包含了姓名、许可证号、身份证号、年龄、户籍等数据。相关人员只需要将真实的数据录入相应的空格即可,最终形成标准统一的结构化数据库。

第二步:建立分析模型

当前,我们对于大数据的分析和研判,大多停留在简单的人工识别加经验判断上,很多有用的情报线索没有得到及时挖掘和利用,致使有些案件该发现的没被发现,该查处的没被查处,失去破案最佳时机。另外,工作人员的操作不当也会导致分析结果的偏差,使数据失去意义。

笔者在这里,主要列举三种常用的数据分析模型。

数据节点碰撞模型,主要用于挖掘数据节点中重复出现的字段。具体操作中,我们可以利用EXCEL中的COUNTIF函数来实现。例如,已知单元格中A1、A2、A3、A4分别代表不同案件中的涉案人员,B1代表新增情报中的嫌疑人。对单条情报操作时,输入公式“=COUNTIF(A1:A4,B1)”,输出结果为2,说明该情报中的嫌疑人在已有案件中出现过2次;当需要对所有案件进行综合操作时,输入公式“=IF(COUNTIF(A:A,A1)>1,“重复”)”,输出结果显示,A2和A4项重复,说明该当事人曾出现在两个不同的案件中。

数据热点分析模型,主要用于分析数据节点中不同字段出现的频次。具体操作中,我们可以利用EXCEL中的排序功能和统计功能来实现。例如,已知单元格中D1、D2……Dn分别代表不同案件中的案发地点,在对其进行升序或降序排列后可以得到不同地址案发数的频次分布。频次越高,说明该地址的违法风险越高。为了便于分析,我们可以对频次进行分区处理:当频次超过某一数值a时,设为违法风险高发区;频次在a~b之间的,设为违法风险中等区;频次在b以下的,设为违法风险低发区。

数据关联分析模型,主要用于挖掘不同字段在给定数据节点集中出现的频率。具体操作中,我们可以利用Ais、Apriori等算法来实现。例如,已知案件中的数据节点有:涉案人员户籍、案件类型和案发区域。户籍项中包含X1、X2、X3三个字段,类型项中包含Y1、Y2、Y3三个字段,区域项中包含Z1、Z2、Z3三个字段,一共有27种不同的组合。通过计算,发现(X1,Y2,Z3)出现了6次,占22.2%;(X2,Y1、Z1)出现了4次,占14.8%。一起出现的概率越频繁,说明这组数据之间的关联越紧密。

第三步:指导稽查实践

在专卖稽查实践中,究竟大数据该怎么用?能发挥怎样的功效?目前尚处于探索阶段。行业内对大数据的应用,主要体现在执法人员考核和案件统计上。没有形成系统的、对数据价值进行深入开发和利用的体系,致使很多数据都缺少用武之地。

笔者结合以上三种数据分析模型,尝试将其用于具体的稽查实践中。

一是应用于情报建设、预警响应中。数据节点产生碰撞,说明节点或预设节点曾一次或多次出现在目标数据库中。对稽查人员来说,情报建设一直以来都是关注的重点和难点,而碰撞分析可以很好地辅助情报的分析和研判。如果收集上来的情报产生碰撞,说明该条情报具备一定的价值;碰撞的节点数越多、产生碰撞的节点越关键,情报所反映的事实越接近真相。除此之外,碰撞分析还可以用于违法预警,有效盘活历史数据。如果已有的数据库中产生碰撞,说明不同案件、情报之间存在着某种联系。稽查人员通过分析这些节点,不仅可以挖掘出新的违法线索,还可以串点连线、以案查案,逐步将小案件经营成网络大案。

二是应用于指挥协调、决策部署中。稽查人员可以通过案发地点的热点分析来了解和确认“卷烟违法行为高发区域”。结合当地的卷烟销量、物流分布、人口结构等特征,可以进一步分析违法行为频繁的原因,并科学地组织人力、物力资源对这一区域进行有目的性的干预。通过对某一时期非法卷烟来源地和流向地的热点分析,掌握卷烟流动特点,强化对目的地嫌疑车辆和人员的监管,有助于提高违法打击的精准性。通过对案发时间的热点分析,得出卷烟违法行为发生的时间规律,加强对节假日、送货日等特殊时期的市场监管,加强对夜间、清晨等监管盲区的突击检查,灵活机动地调整稽查人员的工作重点。

三是应用于案件经营、网络建设中。关联分析,有助于稽查人员通过已知的案件和情报信息,摸索新的违法行为规律。有些作案规律是可以凭经验判断出的,而有些则需要通过数据论证。比如,稽查人员有时候需要知道案发频率高峰期集中在哪几个月份,与这一时期的卷烟投放政策有什么关联;有时候希望知道哪些零售终端可能出现卷烟违法活动,他们的违法手段和特征有什么不同。再比如,在物流监管中,究竟哪些类型的车辆、哪个地区的车辆是需要重点关注的对象;哪个区域多发生哪些类型案件,与具体的区域特征有什么潜在的联系等。搞清楚这一条条的规律,就好比是梳理出一条条的脉络,最终的违法网络也会逐步呈现。

关键字:三步走缺失数据数据对接

本文摘自:东方烟草报

x 大数据在专卖稽查应用中的“三步走” 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

大数据在专卖稽查应用中的“三步走”

责任编辑:editor004 作者:胡孝斌 |来源:企业网D1Net  2017-07-14 11:29:42 本文摘自:东方烟草报

 

  和风

随着网络和信息技术的迅猛发展,当前卷烟违法活动呈现出组织网络化、行为隐蔽化、手段高科技化等特点,亟须专卖稽查人员转变执法理念、创新案件查办方式方法。这种情况下,大数据应用开始凸显其重要性。笔者认为,要进一步明晰大数据在专卖稽查中的具体应用思路,通过构建数据库、建立分析模型、指导稽查实践“三步走”,将大数据应用于情报建设、指挥决策和案件经营等方面。

第一步:构建数据库

高质量的数据库是大数据应用的前提和基础。专卖管理部门虽然在案件查办过程中积累了海量的数据,但种类相对单一。此外,各地在录入案件数据时,往往缺乏严格统一的标准,致使数据结构存在一定差异,对后期的数据对接、整合与分析来说都十分不利。

要扩大数据的来源。除了专卖历史案件数据和系统数据外,还要将一线业务条线在日常工作中收集的数据进行上报,包括情报信息、走访情况、客户资料、举报投诉、网上线索、对比分析结果等。数据的形式上,除了传统的文字信息外,还要注重搜集涉嫌违法的图片、视频、音频等数据。

要强化数据的整理。在补全缺失数据,删除虚假、矛盾、无意义数据的基础上,参照常用的情报分析“5W1H模型”,将数据录入结构划分为“Who(人或者组织基本信息)”“How(行为过程与方式)”“What(行为属性和特点)”“Which(涉事物品、交通工具、联系方式、账户信息等)”“When(时间)”“Where(地点)”六个部分,每个部分对应不同的数据。例如,“Who”中就包含了姓名、许可证号、身份证号、年龄、户籍等数据。相关人员只需要将真实的数据录入相应的空格即可,最终形成标准统一的结构化数据库。

第二步:建立分析模型

当前,我们对于大数据的分析和研判,大多停留在简单的人工识别加经验判断上,很多有用的情报线索没有得到及时挖掘和利用,致使有些案件该发现的没被发现,该查处的没被查处,失去破案最佳时机。另外,工作人员的操作不当也会导致分析结果的偏差,使数据失去意义。

笔者在这里,主要列举三种常用的数据分析模型。

数据节点碰撞模型,主要用于挖掘数据节点中重复出现的字段。具体操作中,我们可以利用EXCEL中的COUNTIF函数来实现。例如,已知单元格中A1、A2、A3、A4分别代表不同案件中的涉案人员,B1代表新增情报中的嫌疑人。对单条情报操作时,输入公式“=COUNTIF(A1:A4,B1)”,输出结果为2,说明该情报中的嫌疑人在已有案件中出现过2次;当需要对所有案件进行综合操作时,输入公式“=IF(COUNTIF(A:A,A1)>1,“重复”)”,输出结果显示,A2和A4项重复,说明该当事人曾出现在两个不同的案件中。

数据热点分析模型,主要用于分析数据节点中不同字段出现的频次。具体操作中,我们可以利用EXCEL中的排序功能和统计功能来实现。例如,已知单元格中D1、D2……Dn分别代表不同案件中的案发地点,在对其进行升序或降序排列后可以得到不同地址案发数的频次分布。频次越高,说明该地址的违法风险越高。为了便于分析,我们可以对频次进行分区处理:当频次超过某一数值a时,设为违法风险高发区;频次在a~b之间的,设为违法风险中等区;频次在b以下的,设为违法风险低发区。

数据关联分析模型,主要用于挖掘不同字段在给定数据节点集中出现的频率。具体操作中,我们可以利用Ais、Apriori等算法来实现。例如,已知案件中的数据节点有:涉案人员户籍、案件类型和案发区域。户籍项中包含X1、X2、X3三个字段,类型项中包含Y1、Y2、Y3三个字段,区域项中包含Z1、Z2、Z3三个字段,一共有27种不同的组合。通过计算,发现(X1,Y2,Z3)出现了6次,占22.2%;(X2,Y1、Z1)出现了4次,占14.8%。一起出现的概率越频繁,说明这组数据之间的关联越紧密。

第三步:指导稽查实践

在专卖稽查实践中,究竟大数据该怎么用?能发挥怎样的功效?目前尚处于探索阶段。行业内对大数据的应用,主要体现在执法人员考核和案件统计上。没有形成系统的、对数据价值进行深入开发和利用的体系,致使很多数据都缺少用武之地。

笔者结合以上三种数据分析模型,尝试将其用于具体的稽查实践中。

一是应用于情报建设、预警响应中。数据节点产生碰撞,说明节点或预设节点曾一次或多次出现在目标数据库中。对稽查人员来说,情报建设一直以来都是关注的重点和难点,而碰撞分析可以很好地辅助情报的分析和研判。如果收集上来的情报产生碰撞,说明该条情报具备一定的价值;碰撞的节点数越多、产生碰撞的节点越关键,情报所反映的事实越接近真相。除此之外,碰撞分析还可以用于违法预警,有效盘活历史数据。如果已有的数据库中产生碰撞,说明不同案件、情报之间存在着某种联系。稽查人员通过分析这些节点,不仅可以挖掘出新的违法线索,还可以串点连线、以案查案,逐步将小案件经营成网络大案。

二是应用于指挥协调、决策部署中。稽查人员可以通过案发地点的热点分析来了解和确认“卷烟违法行为高发区域”。结合当地的卷烟销量、物流分布、人口结构等特征,可以进一步分析违法行为频繁的原因,并科学地组织人力、物力资源对这一区域进行有目的性的干预。通过对某一时期非法卷烟来源地和流向地的热点分析,掌握卷烟流动特点,强化对目的地嫌疑车辆和人员的监管,有助于提高违法打击的精准性。通过对案发时间的热点分析,得出卷烟违法行为发生的时间规律,加强对节假日、送货日等特殊时期的市场监管,加强对夜间、清晨等监管盲区的突击检查,灵活机动地调整稽查人员的工作重点。

三是应用于案件经营、网络建设中。关联分析,有助于稽查人员通过已知的案件和情报信息,摸索新的违法行为规律。有些作案规律是可以凭经验判断出的,而有些则需要通过数据论证。比如,稽查人员有时候需要知道案发频率高峰期集中在哪几个月份,与这一时期的卷烟投放政策有什么关联;有时候希望知道哪些零售终端可能出现卷烟违法活动,他们的违法手段和特征有什么不同。再比如,在物流监管中,究竟哪些类型的车辆、哪个地区的车辆是需要重点关注的对象;哪个区域多发生哪些类型案件,与具体的区域特征有什么潜在的联系等。搞清楚这一条条的规律,就好比是梳理出一条条的脉络,最终的违法网络也会逐步呈现。

关键字:三步走缺失数据数据对接

本文摘自:东方烟草报

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^