程学旗：运用大数据发展互联网金融

责任编辑：editor004 |来源：企业网D1Net 2014-11-28 11:18:06 本文摘自：中国电子银行网

2014年11月26日，2014中国支付清算与互联网金融论坛在京举行，本届论坛以“支付变革与互联网金融发展”为主题，重点研讨了支付变革的创新、互联网金融治理等热点问题，为行业发展具有重要引领作用，中国人民银行潘功胜副行长出席论坛并发表了重要讲话，中国人民银行支付结算司研究部门及中国银监会创新监管部等领导也做了主题演讲，来自银行、保险、中国银联、非金融支付机构、互联网金融机构、互联网企业、基金公司等企业负责人及科研院所的国内外专家都做了精彩的分享。

中国科学院技术研究所副总工程师程学旗在会上作主题演讲，他表示，支付、金融、ONLINE、OFFLINE的核心是数据，对于金融支付大数据，不仅仅要考虑大数据通用的处理技术，还要考虑特定的大数据应该用什么技术处理，能够把大数据的价值挖掘出来。

数据价值是什么呢？程学旗表示，在垂直领域里有很多价值，比如做分析、做预测，比如征信体系的制定，或者做用户行为的挖掘、信息的推介、产品的推介，而这些东西基于大数据和数据管理可归成三类，一是对现状进行分析和感知；二是对未来的趋势进行预测和判断；三是在对现状感知、对未来预测时候，形成的决策调控行为。感知现在、预测未来、决策调控三大类应用，无论在科学发现，还是智慧政府、智慧城市，包括重大疾病检测、网络安全以及金融领域，都面临相对共性的需求。

对于大数据计算的挑战性问题，程学旗认为，第一个问题是数据复杂性问题；第二个问题是数据的多样性；第三个问题是数据的传输、存储和处理；最后一个问题是基于所谓的数据复杂性度量、复杂性的优化和系统复杂性的设计。在这其中怎么处理好数据的安全和隐私，程学旗认为，在金融领域是一个非常重要的问题，无论是监管，还是个人隐私、商业机密，或是数据从数据权属角度讲，都非常重要。

他表示，要让数据价值放大，通过某种程度有偿的数据共享实现这个行业生态更大规模的发展，构建更好的生态体系，是特别需要重点关注的一个问题。在技术层面，基于大数据的金融产品的推荐，基于大数据发展态势的推荐和预测也许比传统的数据分析、数据挖掘更有价值。程学旗认为，大数据和金融的结合是非常有前途的，也许未来还有很多预想不到的新的模式创新。

大数据也在密切影响着金融新浪潮，互联网金融的核心在于大数据，但哪些数据对互联网金融可能是有作用的呢？程学旗认为，一个是通信数据，包括用户实名信息、用户通讯时的地理位置信息，以及用户历史上产生的事件信息，二是银行数据，比如通过手机支付数据，还有互联网浏览日志，比如社交网络上的行为日志，三是电商数据。通过这些数据，可以给用户一个精准的画像，比如年龄、兴趣爱好、收入、诚信度等。归类好、组织好这些数据，最后就能产生价值。

程学旗

以下为发言实录：

程学旗：各位下午好！

我的报告可能跟整天的报告不太一样，我的报告里可能没有太多的涉及到跟支付相关的工作，希望能够从数据以及数据处理技术角度给大家一些参考。

首先，讲数据的问题。前面讲到支付、金融、ONLINE、OFFLINE，核心是数据，我们首先要理解数据来源于哪里，我们把数据分成一个类别，从物理世界产生的数据，包括地理信息产生的数据、物理空间的数据，还有人与人之间交互的数据，以及信息空间里的数据，比如电商产生的数据，产生了交织关系，叫做数据界，所谓的数据，来源于哪里呢？存在数据界，叫信息世界、物理世界、信息空间。

数据是客观存在的，存在什么呢？它的形式是什么呢？是关联和网络化的，在关联和网络化数据情况下，我们讲所谓的大数据，大数据里，在不同领域我们所分析的数据对象本身的特征是不一样的，比如在金融领域的数据和医疗领域的数据其实在规模、数据类型、数据质量、数据的变化方面本身的特点是不一样的。我们金融支付大数据的时候，我们不仅仅讲大数据通用的处理技术，还是要考虑我们这个领域的大数据应该用什么技术处理，能够把大数据的价值挖掘出来，怎么样有针对性的选择我们的系统、选择我们的IT技术，把IT价值挖掘出来。

数据价值是什么呢？在垂直领域里有很多价值，比如我们做分析、做预测，比如征信体系的制定，或者做用户行为的挖掘、信息的推介、产品的推介，我们把这些东西归成三类，基于大数据和数据管理，一个是对现状进行分析和感知，这是第一类数据价值的利用；第二类，对未来的趋势进行预测和判断；第三类，对现状感知、对未来预测时候，我们希望形成一些行为，比如在股市或者在经济环境里边，我们用什么政策、用什么手段能够让它往上涨或者往下降，预测与决策。感知现在、预测未来、决策调控三大类应用，无论在科学发现，还是智慧政府、智慧城市，包括重大疾病检测、网络安全以及金融领域，都面临相对共性的需求。

大数据计算的挑战性问题，我们认为数据有四个复杂性，构建这样一个大的数据，在社会、物理和信息空间里交互，交织在一起，互相产生一些演变性的东西，导致我们对数据的度量越来越复杂。刚才，社科院一位老师讲到在金融领域的数据大部分是结构化数据，金融领域目前用的大部分是结构化数据，其实还有大量非结构化数据，只是没有很好的利用起来。如果把结构化数据和非结构化数据关联起来一起用，数据怎么进行度量？比如支付日志数据和网上的舆论数据和产品竞争对手的情报数据能不能关联起来做综合分析，这样的话，直接带来一个问题，第一个问题叫数据复杂性问题。第二个问题，我们看到的数据是多样的，多样的数据，我们要处理的时候，计算复杂性。第三个问题，数据在哪里，我要存下来，比如Paypal的数据，有智能终端，这些数据是不是全传到数据中心里做综合的设计分析，还是在智能终端上直接处理和判断，尤其是在线上的实时交易过程中，数据系统怎么构建？数据的传输、数据的存储、数据的分析以及数据在不同终端的应用，整个数据体系怎么构建，这是系统复杂性问题。最后一个问题，基于所谓的数据复杂性度量、复杂性的优化和系统复杂性的设计，最后，我们要用数据干什么？做预测，或者做征信，或者做判断，带来的是对数据结果的感知和学习，叫学习复杂性。我们归纳为四个复杂性，进一步讲所谓的数据复杂性问题，上面有些报告中讲到小微有多大的数据量、淘宝有多少数据量，数据量当然是对数据复杂性的一个关键要素，但是，它不是唯一要素，数据之间的复杂关联是带来数据复杂一个更重要的要素，数据的复杂关联和数据的聚集变化对数据复杂性的影响远远超过多大量的数据带来的数据复杂性的影响。比如在多空间里，在支付宝里，在不同空间，比如在社区里，比如在新闻里，比如社交媒体里，大家都要用这个东西，这种行为在不同空间里进行数据源头的相互交互，如果我们发现它的规则和规律的话，带来多数据空间模式的判定，这种模式的判定，比单空间复杂性要大规模提高，指数级的放大，我们做分析和处理的时候，首先要解决大规模网络模式数据复杂性精简的表达和度量。计算复杂性，在金融支付领域，最大的是流式数据计算，如果在很短做决策，所有数据传输过来之后快速地做决策，不仅仅是基于当前流过来的数据，还有历史上的数据，带来计算处理模式上的难点，现在有各种处理软件，由于计算机体系结构的限制，使得计算过程中没办法实时精准的计算流式数据的规则，我们需要给出一种基于全模态流式数据的简约计算与增量计算方法，在当前的领域里还没有成熟的技术。系统复杂性，大部分看作后台日志，更多的只考虑传输，存下来之后，分析时候时拿存下来的数据进行处理，现在系统处理架构把存储、感知、计算分离，存储、感知、计算分离，导致大量数据存下来之后在线上的价值利用比较有限，在这种情况下，能不能从感知存储计算变成流式全生命周期新的系统架构，这种新的系统架构要考虑到系统自身存储计算资源的调度和实时响应能力。学习复杂性，更多的是从数据里面挖掘知识，从知识推断出结论。在大数据里面临的挑战是什么？一是要认识数据的内在规律，二是对数据的复杂性要进行新的度量，在此基础上，数据在哪里？怎么感知？这是第一个阶段，叫数据感知，数据拿来之后在哪里存？怎么查询？叫存储管理，还有怎么判断？怎么决策？怎么做出像征信这样的处理？这是计算推断的问题。

刚才，对数据进行了一些思考，涉及到的技术是哪些呢？从文件到对数据的查询，还有其它各种高级的技术，比如数据的分析、挖掘。互联网领域、电商领域是大规模的数据，在金融领域是非常大规模的数据，比如国内技术到底应用到什么程度？进展到什么程度？这是中国计算机协会大数据专家委员会每年会投票，这是去年年底对2014年大数据发展技术方面的预测，这个月底下个月初会发展2015年大数据发展技术预测，跟大家分享一下我们去年的预测，看看目前的技术处理到了什么手段。

第一，应用驱动的大数据价值。第二，大数据处理的架构是多样化的，包括类似Hadoop、MapReduce这样的体系，多模式并存对目前数据处理架构带来一种新的挑战，结构化数据是一种模式，非结构化数据是模式，结构化数据和非结构化数据结合是一种模式，文本数据和语音数据、音频数据怎么结合，我们很难用单一结构处理这样的数据，目前状况是多种架构共同解决一个问题，比如关于查询的问题，关于判定的问题，关于预测的问题，多家融合处理。第三，安全和隐私，在金融领域是一个非常重要的问题，无论是监管，还是个人隐私，还是商业机密，还是数据从数据权属角度讲，这是非常重要的问题，今年您出的时候，国务院报告里提到一个很重要的方面，比如在线金融支付的安全问题，实际上传统金融一样存在安全问题，大数据带来的价值和便利的同时，安全的问题也可能是非常关键的问题，目前，从技术手段来讲，可能还没有从理论上证明是完备性的手段，关于安全隐私问题是我们需要重点关注的。数据分析与可视化，还有数据本身的共享，在座有很多金融界的大公司，自己有很多数据，支付是不是只有靠大公司才能真正做的起来呢？我们有大量第三方数据分析，可不可以利用我们的数据做三次价值放大，能不能通过某种程度有偿的数据共享实现这个行业生态更大规模的发展，构建更好的生态体系，这是特别需要重点关注的一个问题。技术问题，基于大数据的金融产品的推荐，基于大数据发展态势的预测等等，推荐和预测也许比传统的数据分析、数据挖掘更有价值，这是非常有前途的技术。深度学习和智能处理，包括行为的深度挖掘和学习，包括用户画像，涉及到一系列算法层面的学习和智能技术，当然，还有数据规则问题，最后是生态问题，移动互联网带来的大数据生态逐步扩大的问题。我们说了十个问题，原来我们并不是完全针对金融或者针对支付这个小的垂直领域说的，刚才，听了大家发言之后，我觉得那十个问题在我们这个领域一样存在，我们做数据处理是为搞工具的人提供工具和平台支持的，搞IT的人一直在想办法解决这些问题，但是，如果没有跟具体领域需求和数据结合的话，我们提的观点和问题可能永远解决不了，永远被可能被我们的领域所使用，包括隐私的问题、预测的问题、可视化的问题。我们讲的十个问题在金融领域如果能够结合起来，将产生重要的价值。从分析角度来讲，深度学习，只是链接，社会计算，强可视化，对数据价值进一步产生提升的分析技术。

最后，举几个例子，在中国当前领域里，在产业上能看到的比较大的有前途的大数据应用领域里，包括网络、电信网络和互连网络，网络大数据、金融大数据、健康医疗、企业管理、政府管理和安全，首先，数据规模比较大，其次，基础比较大，金融排第二位，金融放大体量也许排第一位。大数据和金融的结合是非常有前途的，也许未来还有很多预想不到的新的模式创新。

再举一些具体的例子，比如金融大数据和互联网金融，比如基于数据的征信、支付、风控、投资和危机预警。互联网金融，前面已经有些专家讲到互联网金融和大叔据金融到底是什么关系？互联网金融的核心在于大数据，到底是哪些数据呢？我尝试进行了归纳，不见得一个公司能够拿到所有数据，但是，这些数据对互联网金融可能是有作用的，一个是通信数据，包括用户实名信息、用户通讯时的地理位置信息，以及用户历史上产生的事件信息，这是通信数据，还有银行数据，比如通过手机支付数据，还有互联网浏览日志，比如社交网络上的行为日志，还有电商数据，这些数据怎么使用呢？通过这些数据，可以给用户一个精准的画像，比如年龄、兴趣爱好、收入、诚信度，比如我们有一个例子，比如不知道一个人银行对象，也许取他最亲密50个朋友的中值就能了解到他个人大概的画像数据，什么意思呢？这个人是不是诚实可靠，他50个朋友如果诚实可靠，这个人也可能就诚实亲靠，我们不仅仅看交易数据，不仅仅看银行存多少钱，以及有多少不动产，还要看行为、社交，看日常活动就可以推导出另外的一些数据。怎么样归类好、组织好？最后产生价值，营销、信贷、信用，包括风险管理，比如陆金所讲的风险有6%，如果把更多的数据利用起来的时候，是不是降低为3%？比反过去催款可能更有价值，把更多的数据比较好的用起来，这是一方面。

在线推荐，Qzone流量变现平台“广点通”，无论广告推荐，还是产品营销，还是用户的朋友推荐，比如用户画像的问题，比如基本属性、爱好、用户在网络上面的行为、用户当前的状态等等，这些数据都可以通过ONLINE的数据来画像，可以跟通讯行为的数据结合起来。下面的几个例子是我们自己做的，一个例子是病毒式营销，什么叫病毒式营销呢？我们把一个产品推广出去的时候，一种做法是在中央电视台打广告，尤其是新闻联播的时候，多少人同时看，这是一种推销模式。另外一种模式是在社交网络里通过点对点的传播，其实小米的营销就是典型的病毒式营销方法，不是找一个很大的集中式的媒体往外扩散，而是通过人对人口舌相传的模式进行营销，这种营销也有成本问题，在中央电视台打广告时候，可能一个亿、两个亿，占黄金时段多少秒。影响力最大化，从计算角度来讲，它是什么问题呢？是典型的组合爆炸问题，如果一亿人之间进行点对点传播的话，找到最优传播路径是很难的，大家做的基本是近似性算法，花很高高价扩散，最后可能没有达到理想的覆盖度，在全局和局部之间怎么做优化判定的问题，在静态、动态之间做一个平衡型建模，使得算法可依提高一千倍，比传统经典算法可依提高三个数量级，可以快速找到最有影响力的人，在快速时间内把你的价值和产品推销出去。

功劳分配，投入资本，回收利润的时候，投入多少资本回收多少利润，很简单，有人投入资金，有人投入智慧，有人投入平台，这些人投在一起的时候，最后收益怎么分给大家？我们提前制定一个协议，你5%，他8%，拍脑袋也许是一种做法。能不能利用更加科学合理的办法进行判定，这是很有意思的问题，马克思讲劳动分配是我们的三大基本关系，从数据上也能发现一个有意思的新问题，从论文发表的角度来看，现在科学论文、技术论文发表的时候，现在有特别多的作者，好多作者一起写一篇文章，排第一的贡献大？还是排第二的贡献大？很难说，早期写论文的时候，不需要分配，一个人搞定，功劳、利益一个人得，现在合作越来越多，以诺贝尔奖为例，2007年诺贝尔奖、1997年诺贝尔奖和2012年诺贝尔奖，获奖论文是这样几篇文章，有第一作者的，有最后作者的，有第三个作者的，文章获奖了，谁的贡献是最大的？随机一看好象是掷筛子的过程，没有任何规律，怎么让分配或者贡献的评价更加科学合理，现在的办法要么均分，要么按照所谓固定的约定规则来做，比如企业发展初期，可能资本是第一位的，企业发展的第二阶段，可能平台是第一位的，到第三阶段，可能市场是第一位的，最后上市的时候，很难说谁的贡献大。我们提出一个新的阶段，涌现只能与群体决策，通过社会决策给公平合理的分配。我们预测诺贝尔奖获得者，标志宏观的都是预测对的，对一百年来以来诺贝尔化学奖和物理获得者进行预测，准确率在86%，比如这篇文章中最后一个作者获奖，有些文章中的第一名作者获奖了，利用群体智慧进行判定。

大家知道，政治也是一种期货，我们做大选预测的时候，尤其是西方国家一些财团到底支持谁，预测谁能当选的问题是非常有意思的问题，对每一个选举人的政治观点、经济观点、历史上各方面情况做分析，也许是非常复杂的问题，你可能拿一千个特征做判定，最后可能只能选择因素里1%，你不知道哪个因素决定了他能当选，你不知道哪个因素决定他能比另外一个当选者搞一个百分点、两个百分点。这时候怎么办？从数据角度看这个问题，先不管这些人到底是什么经济政策、什么外交政策、什么政治理念，我们就看他在网民中的口碑如何，通过口碑直接判定。包括我们预测台湾、美国的，准确率基本在99%，很简单，用社会媒体的数据直接做决策，不对候选人做经济、政治方面能力做分析，只对网民对他的倾向性进行预测。另外，我们做股票预测，我们做了两个事情：一方面，我们跟结算中心合作时候的例子，哪些股票是被操纵的？就是内幕交易，庄家操纵，如果利用结构化数据测算很难挖掘出这个是被操纵的，只能看到股票突然上去了、突然下去了，我们往往找人谈话有没有涉及到欺诈、不对称信息披露等等，事后破案性的分析很难对这个问题做有价值的科学判定，我们直接针对交易网络，交易网络其实可以揭示操纵行为，我们发现一个很有意思的问题，在股票交易网络里面，股票交易往往在节点强度和频度之间是随机性的，频度和强度往往是随机变化的，带来的是线性关系，没有被操纵的股票是线性关系；在右图中，如果一支股票被操纵，交易量和交易频度之间产生非线性关系，只要一发生，基本判定是非常准确的，可以通过交易相关度做判定。另外，对股价做预测，这是所有人关心的问题，华尔街几千个数学家做这个事情，用各种模型做组合，像投票大选预测一样，也存在这个问题，对股价做预测，正常情况下，是连续变化，非正常情况下是离散变化，比如能源股的变化，如果哪个地方出了飓风或者亚丁湾出现什么事情或者政治事件，比如中东发生一个政治事件，股价立马变成跳跃性变化，能不能提前预测到？这是很重要的问题，比如结构化数据、非结构化数据加上各种政治因素、军事因素影响，很多人做组合因素分析，有一种分析是直接对股民情绪进行判定，这是我们对中国市场分析的结果，中国90%是散户，往往带有情绪化，他往往在网络空间里把自己的想法说出来，投票之前先告诉别人他要怎么出手，汇集所有信息之后，我们只对网上股民信息情绪做分析，可以对股价的走势进行涨跌的判定。我们对一支股票上证指数的预测，基本提前三天，越往后预测，股票价格预测不准确了，但是走势还是相对比较清晰的，为什么对价格预测不准确呢？因为我们根本没有用结构化数据，比如这支股票现在多少钱，我根本没有用这个数，完全用股民情绪化数据做预测，至少对涨跌可以作出否终程度的预测，结果是什么？有了这些数据之后，有了多元异构数据之后，也许还有新的商业模式的创新，这是我的建议，谢谢大家！

关键字：Qzone 空间复杂性支付宝