当前位置:大数据业界动态 → 正文

我国法律大数据的现状、瓶颈与禁区

责任编辑:editor007 |来源:企业网D1Net  2015-05-11 17:47:07 本文摘自:法律读库

近几年,大数据风靡全球。大数据的研发与应用,已在商业、公共管理等领域取得好成绩。虽然从绩效层面来看,大数据产品堪称“里程碑式发展”的案例并不多,但在不少人眼中,大数据即将带来的,不是里程碑,而是颠覆。当下,各行各业热炒大数据,我国法律领域亦不例外。

一、我国法律大数据正处于数据准备阶段

大数据的研发与应用,一般需经5个阶段:数据准备、数据存储与管理、计算处理、数据分析和知识展现。数据准备是大数据应用的起点,是对数据进行清洗和整理的过程。主流观点认为,数据准备和知识展现只是量上的积累,不需要根本性变革,当前和未来一段时间,大数据技术创新的焦点在于存储、计算和分析等3个环节。但这并不说明,数据准备阶段就可轻松拿下。以产销速溶咖啡著称的某跨国公司,其在中国的某一大数据研发计划就流产于数据准备阶段。

法律大数据的数据准备具体是,创建各类法律数据库并共享,外接行政管理数据库,甚至涵盖互联网、物联网等,实现全方位、多角度的数据抓取。这是一个较为圆满的数据准备状态,短期内不可能全部实现,需分阶段进行。但依据阶段性的数据准备,同样可尝试数据处理与分析,这可视为一种“边准备,边分析”的发展模式。“边准备,边分析”,似乎是法律大数据发展的必然模式,一方面可及时研发、应用阶段性成果,另一方面可为后续的研发与应用积累经验。

当下,我国法律大数据主要处于数据准备阶段。首先,公检法三机关已依托各自的执法司法职能,成功地开发出信息化业务应用平台,并在全国范围内铺开使用,这基本完成了系统内的数据准备工作。但目前,这些信息化平台主要用于实现传统事务型数据库功能,比如增加、删除、修改、查询、统计等,尚未全面开展数据挖掘工作,而且基本处于闭锁状态,属于一种自给自足的小农经济模式。其次,依托裁判文书数据库进行更为精准的案例检索,是当下法律服务业正在攻克的主要课题。比如CaseShare、无讼案例、OpenLaw等。这与商业大数据的发展轨迹十分类似:“谷歌等公司率先建立了覆盖数十亿网页的索引库,开始提供较为精确的搜索服务,大大提升了人们使用互联网的效率,这是大数据应用的起点。”值得一提,我国法律大数据已呈现出“边准备,边分析”的发展模式。比如,华宇软件在司法专项大数据研发中,“持续研究文本挖掘技术和多媒体数据分析技术,逐步建立了司法领域法律文书智能化分析与数据挖掘方面的优势地位”。比如,Rouse旗下的CIELA(China IP Litigation Analysis),可对我国主要法院的知识产权案件进行初步统计分析。

二、我国法律大数据的瓶颈在于数据分析阶段

与其他领域数据结构不同,法律数据,尤其公检法系统内数据,主要是结构化和半结构化数据。这对数据的存储与管理、计算处理等方面提出的要求均不高,近阶段,我国法律大数据的瓶颈在于数据分析阶段。

数据分析是指,或通过人工构建数学模型,或建立人工智能系统,分析数据,挖掘隐藏在数据背后的隐性知识。数据分析是大数据研发应用中的关键一环,是大数据施展预测功能的实现方式。大数据之父维克托尔认为,大数据的核心是预测,而实现预测的途径是通过挖掘不同变量间的相关关系,揭示数据背后的隐性知识。比如,沃尔玛超市通过分析顾客的购物清单发现,购买啤酒的人通常还会购买尿不湿,飓风季节POP-Tarts蛋挞的销量也随之增加,所以,沃尔玛将啤酒和尿不湿、飓风用品和蛋挞放在一起销售,方便顾客,从而增加销量。

法律大数据的数据分析具体是,通过分析法律相关数据,挖掘隐藏在数据背后的司法规律。比如,史宇航博士认为,通过对裁判文书中的“受理时间”和“落款时间”进行数据挖掘,“可以计算出来(某一类型)案件审理的时间”,“至少可以帮助评估诉讼的时间成本。”再比如,华宇软件在“职务犯罪侦查信息化解决方案”中提出:“通过汇集、分析、研究和利用各种信息资料,帮助办案人员了解和掌握犯罪动向、特点及规律,通过信息引导侦查,研判侦查方向和侦查重点,实现职务犯罪侦查引导,服务检察机关的职务犯罪侦查办案工作,有助于提高侦查效率,拓展侦查思路,提炼侦查方法,促进侦查模式‘由供到证’向‘由证到供’的转变。实现工作创新、办案服务与科学技术的深度融合。”

目前,数据分析主要有两条技术路线:一是凭借人的先验知识,人工建模来分析数据;二是建立人工智能系统,使用大量样本数据进行训练,让机器获得从数据中提取知识的能力。笔者认为,法律大数据遵循前一技术路线即可。虽然,通过机器学习实现人工智能诱惑力十足,而且近年来深度神经网络卓有成效,但是,机器学习实现难度大,而且网络层数较多时会导致输出结果风险高,这与法律经济性、稳定性、权威性等方面的要求均相冲突。实际上,法律大数据以结构化、半结构化数据居多,通过“先验知识+人工建模”足可实现司法规律的充分挖掘。

凭借先验知识人工建模,需要法律团队和建模团队的精诚合作,这并不容易。单从法律团队方面来说:第一,法律团队需掌握一定的司法规律,并能通俗表达,若无司法规律打底,建模团队“难为无米之炊”;第二,法律团队需掌握大数据的基本原理、主要技术路线、常用技术手段,这样才能有的放矢,挖掘到更多的“弱相关数据”,为建模提供更多原料;第三,法律团队要能对大数据的输出结果进行科学合理的筛选,大数据重相关、轻因果,其输出的司法规律是否科学、是否可行,均需法律团队严格把关。

三、法律大数据的禁区在于个人隐私和因果推理

首先,“不能任由大数据运用在法外任性‘裸奔’,……涉及个人隐私的法律保护必须提上议程”,这已引起不少主流媒体的关注。大数据可能侵犯个人隐私,是因为大数据在处理大量碎片化、弱相关的数据时,会产生镶嵌理论效应,即,“信息拼版的价值高于其组成部分各自价值的总和”。同于其他大数据,法律大数据不可侵犯个人隐私,这是法律大数据在价值层面上的禁区。

其次,止步于因果推理,应是法律大数据在技术层面上的禁区。大数据能呈现变量相关程度、预测事物发展趋势,但这种“相关程度”不代表因果关系,只是一种或然的、间接的关联;预测趋势不代表必然走向,只是一种盖然性的判断。这与统计概率的局限如出一辙,后者同样只能呈现相关关系、不能揭示因果关系。这一特性极大限制了法律大数据——乃至人工智能——在司法领域中的应用,比如,司法审判需谨慎使用大数据与人工智能。

最后,周涛教授在《大数据时代》的“译者序”中引用了苏珊·朗格的一段话,这值得每一个关注大数据的人深思:“某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以,它们似乎将有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来建构一个综合分析体系的概念轴心。这种‘宏达概念’突然流行起来,一时间把几乎所有的东西都挤到了一边。”

关键字:数据准备先验知识

本文摘自:法律读库

x 我国法律大数据的现状、瓶颈与禁区 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

我国法律大数据的现状、瓶颈与禁区

责任编辑:editor007 |来源:企业网D1Net  2015-05-11 17:47:07 本文摘自:法律读库

近几年,大数据风靡全球。大数据的研发与应用,已在商业、公共管理等领域取得好成绩。虽然从绩效层面来看,大数据产品堪称“里程碑式发展”的案例并不多,但在不少人眼中,大数据即将带来的,不是里程碑,而是颠覆。当下,各行各业热炒大数据,我国法律领域亦不例外。

一、我国法律大数据正处于数据准备阶段

大数据的研发与应用,一般需经5个阶段:数据准备、数据存储与管理、计算处理、数据分析和知识展现。数据准备是大数据应用的起点,是对数据进行清洗和整理的过程。主流观点认为,数据准备和知识展现只是量上的积累,不需要根本性变革,当前和未来一段时间,大数据技术创新的焦点在于存储、计算和分析等3个环节。但这并不说明,数据准备阶段就可轻松拿下。以产销速溶咖啡著称的某跨国公司,其在中国的某一大数据研发计划就流产于数据准备阶段。

法律大数据的数据准备具体是,创建各类法律数据库并共享,外接行政管理数据库,甚至涵盖互联网、物联网等,实现全方位、多角度的数据抓取。这是一个较为圆满的数据准备状态,短期内不可能全部实现,需分阶段进行。但依据阶段性的数据准备,同样可尝试数据处理与分析,这可视为一种“边准备,边分析”的发展模式。“边准备,边分析”,似乎是法律大数据发展的必然模式,一方面可及时研发、应用阶段性成果,另一方面可为后续的研发与应用积累经验。

当下,我国法律大数据主要处于数据准备阶段。首先,公检法三机关已依托各自的执法司法职能,成功地开发出信息化业务应用平台,并在全国范围内铺开使用,这基本完成了系统内的数据准备工作。但目前,这些信息化平台主要用于实现传统事务型数据库功能,比如增加、删除、修改、查询、统计等,尚未全面开展数据挖掘工作,而且基本处于闭锁状态,属于一种自给自足的小农经济模式。其次,依托裁判文书数据库进行更为精准的案例检索,是当下法律服务业正在攻克的主要课题。比如CaseShare、无讼案例、OpenLaw等。这与商业大数据的发展轨迹十分类似:“谷歌等公司率先建立了覆盖数十亿网页的索引库,开始提供较为精确的搜索服务,大大提升了人们使用互联网的效率,这是大数据应用的起点。”值得一提,我国法律大数据已呈现出“边准备,边分析”的发展模式。比如,华宇软件在司法专项大数据研发中,“持续研究文本挖掘技术和多媒体数据分析技术,逐步建立了司法领域法律文书智能化分析与数据挖掘方面的优势地位”。比如,Rouse旗下的CIELA(China IP Litigation Analysis),可对我国主要法院的知识产权案件进行初步统计分析。

二、我国法律大数据的瓶颈在于数据分析阶段

与其他领域数据结构不同,法律数据,尤其公检法系统内数据,主要是结构化和半结构化数据。这对数据的存储与管理、计算处理等方面提出的要求均不高,近阶段,我国法律大数据的瓶颈在于数据分析阶段。

数据分析是指,或通过人工构建数学模型,或建立人工智能系统,分析数据,挖掘隐藏在数据背后的隐性知识。数据分析是大数据研发应用中的关键一环,是大数据施展预测功能的实现方式。大数据之父维克托尔认为,大数据的核心是预测,而实现预测的途径是通过挖掘不同变量间的相关关系,揭示数据背后的隐性知识。比如,沃尔玛超市通过分析顾客的购物清单发现,购买啤酒的人通常还会购买尿不湿,飓风季节POP-Tarts蛋挞的销量也随之增加,所以,沃尔玛将啤酒和尿不湿、飓风用品和蛋挞放在一起销售,方便顾客,从而增加销量。

法律大数据的数据分析具体是,通过分析法律相关数据,挖掘隐藏在数据背后的司法规律。比如,史宇航博士认为,通过对裁判文书中的“受理时间”和“落款时间”进行数据挖掘,“可以计算出来(某一类型)案件审理的时间”,“至少可以帮助评估诉讼的时间成本。”再比如,华宇软件在“职务犯罪侦查信息化解决方案”中提出:“通过汇集、分析、研究和利用各种信息资料,帮助办案人员了解和掌握犯罪动向、特点及规律,通过信息引导侦查,研判侦查方向和侦查重点,实现职务犯罪侦查引导,服务检察机关的职务犯罪侦查办案工作,有助于提高侦查效率,拓展侦查思路,提炼侦查方法,促进侦查模式‘由供到证’向‘由证到供’的转变。实现工作创新、办案服务与科学技术的深度融合。”

目前,数据分析主要有两条技术路线:一是凭借人的先验知识,人工建模来分析数据;二是建立人工智能系统,使用大量样本数据进行训练,让机器获得从数据中提取知识的能力。笔者认为,法律大数据遵循前一技术路线即可。虽然,通过机器学习实现人工智能诱惑力十足,而且近年来深度神经网络卓有成效,但是,机器学习实现难度大,而且网络层数较多时会导致输出结果风险高,这与法律经济性、稳定性、权威性等方面的要求均相冲突。实际上,法律大数据以结构化、半结构化数据居多,通过“先验知识+人工建模”足可实现司法规律的充分挖掘。

凭借先验知识人工建模,需要法律团队和建模团队的精诚合作,这并不容易。单从法律团队方面来说:第一,法律团队需掌握一定的司法规律,并能通俗表达,若无司法规律打底,建模团队“难为无米之炊”;第二,法律团队需掌握大数据的基本原理、主要技术路线、常用技术手段,这样才能有的放矢,挖掘到更多的“弱相关数据”,为建模提供更多原料;第三,法律团队要能对大数据的输出结果进行科学合理的筛选,大数据重相关、轻因果,其输出的司法规律是否科学、是否可行,均需法律团队严格把关。

三、法律大数据的禁区在于个人隐私和因果推理

首先,“不能任由大数据运用在法外任性‘裸奔’,……涉及个人隐私的法律保护必须提上议程”,这已引起不少主流媒体的关注。大数据可能侵犯个人隐私,是因为大数据在处理大量碎片化、弱相关的数据时,会产生镶嵌理论效应,即,“信息拼版的价值高于其组成部分各自价值的总和”。同于其他大数据,法律大数据不可侵犯个人隐私,这是法律大数据在价值层面上的禁区。

其次,止步于因果推理,应是法律大数据在技术层面上的禁区。大数据能呈现变量相关程度、预测事物发展趋势,但这种“相关程度”不代表因果关系,只是一种或然的、间接的关联;预测趋势不代表必然走向,只是一种盖然性的判断。这与统计概率的局限如出一辙,后者同样只能呈现相关关系、不能揭示因果关系。这一特性极大限制了法律大数据——乃至人工智能——在司法领域中的应用,比如,司法审判需谨慎使用大数据与人工智能。

最后,周涛教授在《大数据时代》的“译者序”中引用了苏珊·朗格的一段话,这值得每一个关注大数据的人深思:“某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以,它们似乎将有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来建构一个综合分析体系的概念轴心。这种‘宏达概念’突然流行起来,一时间把几乎所有的东西都挤到了一边。”

关键字:数据准备先验知识

本文摘自:法律读库

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^