当前位置:CIO新闻中心 → 正文

人力资源的大数据之道

责任编辑:cres |来源:企业网D1Net  2017-07-20 17:22:31 原创文章 企业网D1Net

2017 CIOC全国CIO大会7月20日在青海·西宁盛大举办,来自全国的300余位CIO共聚一堂,最接地气的观点、最实用的实战经验、最前沿的技术、最新的产品在此汇聚,碰撞出属于CIO的精彩火花。
 
以下为现场速记。
 

职品汇创始人(原大街网首席科学家) 龚才春
 
龚才春:谢谢!各位领导、各位朋友,下午好!我是职品汇的龚才春,刚才说到,如果你泄漏了50条个人隐私数据就有可能入刑。我跟大家说一个更可怕的消息,今年2017年我们要抓5000人,希望各位CIO在这方面引起注意。在这里我跟大家讲一讲大数据之道。2011年我们大家开始接触大数据,到现在6年多的时间过去了,我相信我们在座的每一位对大数据都非常了解,所以大数据的概念我们在这里就不需要再讲了。
 
大数据之道可能大家还没有听说过,“道”这个词最早提出来的是老子,老子说“道可道,非常道;明可明,非常明”。其实道就是自然规律,大数据我们已经知道了,大数据里面有什么规律呢?其实我今天想跟大家分享的,就是解释一下大数据里面的规律。很多朋友都问过我,有传统行业和互联网行业的朋友都问一个问题,他说龚博士你是做大数据的,我们公司也有很多数据积淀,数据量非常大,我想挖掘一些价值出来,我应该从哪里着手。其实我今天的报告就是回答这个问题的,当你对大数据还不是特别了解的情况下,我们怎么切入做大数据的分析挖掘。
 
大数据主要包括这么几个技术,第一是数据采集,第二是数据存储,第三是数据的并行计算,第四是大家比较关心的大数据的分析与挖掘,第五是大数据的展示,第六是大数据的隐私保护和法律问题。从这几个方面来讲,其实从大数据的采集看,我们的八爪鱼等各个系统都做得不错,大家用到很多工具展示大数据的结果。在这里有一个问题,一直到现在没有谁能够总结出规律,那就是大数据的分析与挖掘。在大数据的分析与挖掘中,一直没有一个通用的模型能够在任何的场景下分析出我们的数据价值。在现在是没有这样的大数据的产品的,我相信在未来的很长时间之内,也不会有这样的产品。也就是说,大数据的分析和挖掘要做成通用产品是不可能的。但是在大数据的分析与挖掘有没有共性的东西呢?我们把这个共性的东西就称为“大数据之道”。
 
我今天跟大家分享几个方面的内容,第一是解释什么叫大数据之道,第二是我们职品汇这家公司是怎么做大数据分析与挖掘的。我们先讲大数据之道,这里提到王道、帝道和霸道,其实在帝道之前还有一个道,我们称之为皇道。王道、皇道、帝道、霸道就是统治老百姓的规律和方法,其实皇道被中国的皇帝所破坏了,皇帝推崇的就是打战,把炎帝打败,打败之后推行的就是帝道,把皇道去掉了,所以我们这边讲的帝道是讲什么内容呢?在古代就是好民之所好,恶民之所恶,老百姓喜欢什么我们就应该喜欢什么,老百姓讨厌什么我们就应该讨厌什么,帝道推崇的就是以德服人,无为而治。
 
帝道是谁废除的呢?我们觉得帝道推崇的就是尧舜,但是后来被废除了,后来推崇的是王道。王道就是一心行仁,泽及百姓。在这里王道做得最好的,其实就是周武王,周武王就叫做以礼治国、有为而治,王天天想着怎么统治老百姓,统治老百姓的是想着怎么让老百姓舒服一点、爽一点点,爽是我今天听到最多的一个词。
 
之后就是霸道,最典型的是商鞅,商鞅变法的所有策略和内容都是霸道,所谓的霸道就是让秦国快速成为春秋包括战国的一个霸主,追求的就是短、平、快。我们现在翻译霸道就是依法治国,再翻译一下其实就是国家的恐怖主义,类似于国民党的白色恐怖、共产党的红色恐怖就是霸道。
 
接下来,我们再看一看它们有什么样的区别。再来讲一讲帝道,其实是强调道德素养,强调长治久安。也就是说,帝道讲的就是长远的永久的去解决问题。第二个就是王道,王道强调的是礼义廉耻,所以王道强调的是可持续发展,就是科技治国。最后霸道强调的是短、平、快的解决问题。包括很多都跟我们的大数据、IT、CIO没有一毛钱关系,我们再往后看一看,这些到底是帝道、还是王道、还是霸道,基本上看上去科教兴国算是王道,其它的应该都算是霸道。所以其实都是讲究短、平、快的出结果,尤其是我们的计划生育,就是希望在短期之内出结果,就搞计划生育,后来发现不行了。
 
我们步入正题,在大数据里面,什么是王道、摆到、帝道。我相信我们的很多公司刚刚开始做大数据的时候,都还是想出效果的,我们就行一行霸道,霸道我们这边用了一个词叫做“数字”,大数据公司的霸道就是数据,在什么情况下你都能想到数据的时候,你可能就很短、平、快的解决你的问题,这就是我们说的霸道。第二再往上就是大数据的王道,这个可能大家都听说得很多,大数据这个概念在中国2011年兴起的时候,我相信大家都听到一个词,在现在数据是王道,这个词我相信无数人说过。大数据的王道就是数据,所以你要积累数据、分析数据、挖掘数据,这是我们所说的大数据的王道。最后我们公司要持续发展,我们要行大数据的帝道,就是数学。一个问题只有在数学上解决了,这个问题才叫做从根本上解决了。所以在这里我们的总结就是,大数据的霸道是数字,大数据的王道是数据,大数据的帝道是数学。
 
好像还是很深奥,下面就以我们公司自己的例子跟大家讲一讲,什么叫做大数据的霸道、什么叫王道、什么叫帝道。我们公司叫职品汇,这应该是我们公司的一个使命,让天下没有欺骗。我们公司做的业务可以简单理解为人力资源行业的背景调查,当然我们的背景调查跟其它公司做的背景调查不完全相同。我们的背调是用计算机完成的,而不需要人工的参与。在这种情况下,我们就要收集几乎所有人的数据,我们来判断这个人的背景是真实的背景。刚才说到泄漏50条数据要入刑,我这里包括所有中国人的都有,如果我们公司出现数据泄漏,可能会更加的严重。
 
我说一下我们公司的业务,现在在人力资源这一块都在做招聘,我们的招聘网站是不去对这些方面进行把关的,每个HR可以随意在上面发布招聘职位,每个候选人可以随意投递简历,而且这个简历都是候选人自己写的,没有人在中间做把关。正是这种错误的商业逻辑,更多的是鼓励大家造假,因为你造假越多,你发现你得到的利益更多。在这种模式下,我们招聘网站的招聘职位基本上每天大概在1千万左右,其中有60%到70%的招聘本身是虚假的。我们再看看我们的简历,在中国互联网上有简历的人大概是1.5亿左右,官方给的数据是85%的简历涉及造假,当然我们认为这个数据可能还不止85%。包括后面毕业生的简历,可能这一块是最不靠谱的,我们拿一个毕业生的简历来看一看,基本上不用看,除了姓名、手机、邮箱地址之外,性别这些可能会造假。
 
我们介绍一下大数据这一块是怎么做的,这是我们整体上的一个公司的计算架构,分为三大块。最左边是数据来源,当然有一点点变形,我们有4类数据来源。第一类是申请使用权威数据,包括公安、教育、人力等等数据都会申请使用。第二类是合作共享,我们开发了猎头管理系统、HR管理系统,让猎头和HR来使用,我们也正在开发虚假简历的识别系统,这些系统都是免费提供给HR使用的。在使用过程中,HR也会留下他的数据,我们现在掌握了1.5亿的数据,大概是5000万人的数据,这个也是通过合作共享的方式获取到的数据。第三类是通过网络采集的数据,我们今年定的目标就是采集30亿份简历,当然也包括其它数据的采集,我们后面会更加详细的去说。第四类数据是候选人必须到我们的网站授权,在这种情况下授权也会给我们留下数据。中间就是我们的数据分析的过程,包括定级、解析以及各种各样的比对,实际上这就是我们公司做的分析和挖掘。最后其实就是出具的个人征信报告,当然我们的个人征信报告是在职场上的个人征信报告,你天天在外面有男女不同的关系,那些东西我们不是特别关心。
 
最后我们开始讲我们的霸道,我们把什么问题都能够归结到一个数字的时候,你可能就把这个问题想清楚了。举个例子,大家看过奥斯卡评奖,奥斯卡是干什么的,对全世界最好的电影,24项里面都找出一个最好的,到最后归结为一个数字。胡润排行榜其实就是把全世界的人谁有多少钱,把这个钱变成一个数字来描述一下,给这个数字一个排序。我们这边也有各种各样的数字,最右边的就是一个职品分,有一点点类似于大家看到的芝麻征信分一样,这实际上就是我们把这个人在职场上的表现或者这个人的优秀程度或者这个人的可信程度,我们用这么一个数字来标志,这就是我们把这个人的信用问题变成一个数字。这个中间的人脉关系,就是说这个人的人脉有多广,或者他认识多少牛逼的人,就是用了这么一个人脉关系的分来计算,把它变成一个数字。
 
如果我们把我们的问题都能够变成一个个数字,并且计算出来这个数字,你会发现在大数据的时候,你就完成一个很重要的工作。我们也列了在职场这一块需要计算的各种各样的数字,你会发现HR看一个人的时候,我只需要看这个人在一个维度上的数字就行了。你做一个大数据项目的时候,你要想一想这个大数据项目最终归结到计算几个数字吗?如果能够归结出来,也许你离成功就接近一半了。这就是职品汇的霸道。
 
我们再看看王道,也就是说我们有哪些数据呢?这些是我们自有的数据,我有1.5亿份简历数据,上面肯定有你的姓名和手机号码,这些都属于粉丝。而且我们也有物流地址,这上面有你的姓名、你家在什么地方、你公司在什么地方。而且稍微分析一下,我可以找到薛蛮子的5个女人,这是非常隐私的,这些数据都在我们这儿。这就是我们整理的数据,当然整理我们的数据的过程中,我们还要进行一些分析和处理。刚才有一位老总说数据要进行很多清洗和很多工作,我们现在对数据基本上是不清洗的。在大数据时代我们要有三个意识,需要做一些观念上或者思维方式上的变更。第一是全样思维,我们在小数据年代讲究的是抽样,我去抽样来看看怎么样,我想看看今天男女比例是什么样的,我就看第一排有多少男同志和多少女同志,我就知道男女比例。但是在大数据时代我们从来不抽样,我们要的是全样,对应我们在数据采集的时候,我们采集的就是所有的数据,我们也不能够清洗数据。
 
第二是容错思维,容错思维对应到小数据里面,我们就是要做数据的清洗,这些数据可能是不准确的、不精确的甚至是错误的,我们就应该想办法把它去掉。这是在小数据年代我们经常做的事,在大数据年代我们要求别这么做,错误有错误的理由,它为什么会错呢,它是有它的理由的,它存在肯定有一个道理,我们不应该把这些噪音去掉。同时在你这个阶段你认为是噪音,在其它应用场景下可能是正常的数据。
 
举一个例子,如果我们要做说话人识别的时候,我要识别这句话可能是谁说的,那么用得最多的就是“恩、呢、吗”这些词。如果我们要分析这个人说话的内容表示什么含义,这些副词就不重要了,最重要的是动词、名词、形容词,这些都在语音的领域里面,只是两个不同的场景,它需要的数据就完全不同。所以在大数据年代,我们不需要去掉任何数据,这就是我们所说的容错的思维。
 
这是我们其它的一些数据,基本上我们中国的教师在网上有简历的,我们都有简历。中国谁买过什么车,这些数据我们基本上有十分之一。大家发表过什么论文,基本上我们有掌握90%的人发的论文。其它的这些老赖是540万,一直到现在一共公布761万人,我们现在已经采集到700万人,基本上我们的数据量采集还是非常全的,包括人人网的数据,这些我们基本上全部拿过来了。工商的几乎所有数据我们都有,学历认证这一块我们现在库里面是75万,其实我们能够验证5000万人的学历,而且这个学历认证和教育部的学信网学历认证是不完全相同的,高职院校之前的他验证不了,我们这个是不受影响的。
 
这是我们的权威数据,包括公安、运营商的数据,这是稍微标准的数据。银行的数据、网贷黑名单、金融风控的数据,包括运营商的数据。从数据上讲,我们作为一个大数据公司,我们也会收集整理我们的数据,这就是我们今年定的目标,我们还要收集哪些数据。
 
最后一个是讲我们的帝道,其实帝道就是我们说的数学。我们到最后强调的是你把你的什么事情能够用一个数学模型表示出来,也许你就在根本上解决了这个事情。我怎么判断一个人的简历虚假或者怎么解释一个人信用分,中间就是我们的各种各样的计算方法,这边是结果。我们随便举两个,第一个自行提交材料,如果我要向别人证明我是中科院计算所的博士,最简单的是把论文给大家看,大家就知道我真的是中科院计算所的博士,这种属于自行提交材料,当然还有各种各样的论证方式。这边是我们在数学上计算一个人的评分,这个人的职品分905分是怎么打出来的,这是需要计算的,就有一个计算模型。这是我的个人经历,我是硕士是在山东大学上的,为什么要从山东大学到中科院去呢?我个人可能认为中科院比山东大学好一点。
 
这些计算出来之后,我就形成一个有向图,而我们手上有1.5亿份简历,中间2000多份简历中就有从一个学校到另外一个学校的。而中国的学校只有3千所,这个图是非常稠密的图,很好分析和挖掘。我们形成这么一个有向图之后,我们就在这个有向图上进行分析挖掘,这个分析挖掘的算法我就不在这里跟大家说了,大家可以参考谷歌的算法。我可以算出来究竟中国哪所大学是最好的,大学的排名就这么出来的。
 
这是中国公司的排名,中国有8千万家公司,到底哪家公司最好,腾讯好还是哪家公司好,我们也会对这些公司进行排名。这是职位的定级,我们就不用看了。到最后实际上这就是一个统一的模型,我们不仅仅要对中国所有高校对计算级算出到底谁好谁差,对中国8千万家公司算出谁好谁差,中国有9.2亿从业者,在座都是这9.2亿人中的佼佼者,这些人到底谁最厉害、谁的信用不好,我们也是要进行计算的。这里我们有一个迭代的模型,我们认为好的学校的人会去好的公司,好的公司的人可能会来自比较好的学校的人或者来自比较牛的人,这四者之间进行一个迭代。这个模型是可以收敛的,一收敛以后,每个人的分就出来了,这个分不依赖于你平时的信息,只要我们把这个网络构建好了,我们这个分就能够算出来,而且它不依赖于其它的个人信息。
 
所以这边有一个征信模型,我们的征信模型其实很简单,每一个人的信用状况怎么样取决于他的朋友是什么样的朋友,也就是说你的信用状况可以等同于你的朋友的信用状况的一个平均值,这样把你的所有朋友加起来,你的信用分就算出来了。我今天跟大家分享的内容大概就是这些,谢谢各位!

关键字:大数据

原创文章 企业网D1Net

x 人力资源的大数据之道 扫一扫
分享本文到朋友圈
当前位置:CIO新闻中心 → 正文

人力资源的大数据之道

责任编辑:cres |来源:企业网D1Net  2017-07-20 17:22:31 原创文章 企业网D1Net

2017 CIOC全国CIO大会7月20日在青海·西宁盛大举办,来自全国的300余位CIO共聚一堂,最接地气的观点、最实用的实战经验、最前沿的技术、最新的产品在此汇聚,碰撞出属于CIO的精彩火花。
 
以下为现场速记。
 

职品汇创始人(原大街网首席科学家) 龚才春
 
龚才春:谢谢!各位领导、各位朋友,下午好!我是职品汇的龚才春,刚才说到,如果你泄漏了50条个人隐私数据就有可能入刑。我跟大家说一个更可怕的消息,今年2017年我们要抓5000人,希望各位CIO在这方面引起注意。在这里我跟大家讲一讲大数据之道。2011年我们大家开始接触大数据,到现在6年多的时间过去了,我相信我们在座的每一位对大数据都非常了解,所以大数据的概念我们在这里就不需要再讲了。
 
大数据之道可能大家还没有听说过,“道”这个词最早提出来的是老子,老子说“道可道,非常道;明可明,非常明”。其实道就是自然规律,大数据我们已经知道了,大数据里面有什么规律呢?其实我今天想跟大家分享的,就是解释一下大数据里面的规律。很多朋友都问过我,有传统行业和互联网行业的朋友都问一个问题,他说龚博士你是做大数据的,我们公司也有很多数据积淀,数据量非常大,我想挖掘一些价值出来,我应该从哪里着手。其实我今天的报告就是回答这个问题的,当你对大数据还不是特别了解的情况下,我们怎么切入做大数据的分析挖掘。
 
大数据主要包括这么几个技术,第一是数据采集,第二是数据存储,第三是数据的并行计算,第四是大家比较关心的大数据的分析与挖掘,第五是大数据的展示,第六是大数据的隐私保护和法律问题。从这几个方面来讲,其实从大数据的采集看,我们的八爪鱼等各个系统都做得不错,大家用到很多工具展示大数据的结果。在这里有一个问题,一直到现在没有谁能够总结出规律,那就是大数据的分析与挖掘。在大数据的分析与挖掘中,一直没有一个通用的模型能够在任何的场景下分析出我们的数据价值。在现在是没有这样的大数据的产品的,我相信在未来的很长时间之内,也不会有这样的产品。也就是说,大数据的分析和挖掘要做成通用产品是不可能的。但是在大数据的分析与挖掘有没有共性的东西呢?我们把这个共性的东西就称为“大数据之道”。
 
我今天跟大家分享几个方面的内容,第一是解释什么叫大数据之道,第二是我们职品汇这家公司是怎么做大数据分析与挖掘的。我们先讲大数据之道,这里提到王道、帝道和霸道,其实在帝道之前还有一个道,我们称之为皇道。王道、皇道、帝道、霸道就是统治老百姓的规律和方法,其实皇道被中国的皇帝所破坏了,皇帝推崇的就是打战,把炎帝打败,打败之后推行的就是帝道,把皇道去掉了,所以我们这边讲的帝道是讲什么内容呢?在古代就是好民之所好,恶民之所恶,老百姓喜欢什么我们就应该喜欢什么,老百姓讨厌什么我们就应该讨厌什么,帝道推崇的就是以德服人,无为而治。
 
帝道是谁废除的呢?我们觉得帝道推崇的就是尧舜,但是后来被废除了,后来推崇的是王道。王道就是一心行仁,泽及百姓。在这里王道做得最好的,其实就是周武王,周武王就叫做以礼治国、有为而治,王天天想着怎么统治老百姓,统治老百姓的是想着怎么让老百姓舒服一点、爽一点点,爽是我今天听到最多的一个词。
 
之后就是霸道,最典型的是商鞅,商鞅变法的所有策略和内容都是霸道,所谓的霸道就是让秦国快速成为春秋包括战国的一个霸主,追求的就是短、平、快。我们现在翻译霸道就是依法治国,再翻译一下其实就是国家的恐怖主义,类似于国民党的白色恐怖、共产党的红色恐怖就是霸道。
 
接下来,我们再看一看它们有什么样的区别。再来讲一讲帝道,其实是强调道德素养,强调长治久安。也就是说,帝道讲的就是长远的永久的去解决问题。第二个就是王道,王道强调的是礼义廉耻,所以王道强调的是可持续发展,就是科技治国。最后霸道强调的是短、平、快的解决问题。包括很多都跟我们的大数据、IT、CIO没有一毛钱关系,我们再往后看一看,这些到底是帝道、还是王道、还是霸道,基本上看上去科教兴国算是王道,其它的应该都算是霸道。所以其实都是讲究短、平、快的出结果,尤其是我们的计划生育,就是希望在短期之内出结果,就搞计划生育,后来发现不行了。
 
我们步入正题,在大数据里面,什么是王道、摆到、帝道。我相信我们的很多公司刚刚开始做大数据的时候,都还是想出效果的,我们就行一行霸道,霸道我们这边用了一个词叫做“数字”,大数据公司的霸道就是数据,在什么情况下你都能想到数据的时候,你可能就很短、平、快的解决你的问题,这就是我们说的霸道。第二再往上就是大数据的王道,这个可能大家都听说得很多,大数据这个概念在中国2011年兴起的时候,我相信大家都听到一个词,在现在数据是王道,这个词我相信无数人说过。大数据的王道就是数据,所以你要积累数据、分析数据、挖掘数据,这是我们所说的大数据的王道。最后我们公司要持续发展,我们要行大数据的帝道,就是数学。一个问题只有在数学上解决了,这个问题才叫做从根本上解决了。所以在这里我们的总结就是,大数据的霸道是数字,大数据的王道是数据,大数据的帝道是数学。
 
好像还是很深奥,下面就以我们公司自己的例子跟大家讲一讲,什么叫做大数据的霸道、什么叫王道、什么叫帝道。我们公司叫职品汇,这应该是我们公司的一个使命,让天下没有欺骗。我们公司做的业务可以简单理解为人力资源行业的背景调查,当然我们的背景调查跟其它公司做的背景调查不完全相同。我们的背调是用计算机完成的,而不需要人工的参与。在这种情况下,我们就要收集几乎所有人的数据,我们来判断这个人的背景是真实的背景。刚才说到泄漏50条数据要入刑,我这里包括所有中国人的都有,如果我们公司出现数据泄漏,可能会更加的严重。
 
我说一下我们公司的业务,现在在人力资源这一块都在做招聘,我们的招聘网站是不去对这些方面进行把关的,每个HR可以随意在上面发布招聘职位,每个候选人可以随意投递简历,而且这个简历都是候选人自己写的,没有人在中间做把关。正是这种错误的商业逻辑,更多的是鼓励大家造假,因为你造假越多,你发现你得到的利益更多。在这种模式下,我们招聘网站的招聘职位基本上每天大概在1千万左右,其中有60%到70%的招聘本身是虚假的。我们再看看我们的简历,在中国互联网上有简历的人大概是1.5亿左右,官方给的数据是85%的简历涉及造假,当然我们认为这个数据可能还不止85%。包括后面毕业生的简历,可能这一块是最不靠谱的,我们拿一个毕业生的简历来看一看,基本上不用看,除了姓名、手机、邮箱地址之外,性别这些可能会造假。
 
我们介绍一下大数据这一块是怎么做的,这是我们整体上的一个公司的计算架构,分为三大块。最左边是数据来源,当然有一点点变形,我们有4类数据来源。第一类是申请使用权威数据,包括公安、教育、人力等等数据都会申请使用。第二类是合作共享,我们开发了猎头管理系统、HR管理系统,让猎头和HR来使用,我们也正在开发虚假简历的识别系统,这些系统都是免费提供给HR使用的。在使用过程中,HR也会留下他的数据,我们现在掌握了1.5亿的数据,大概是5000万人的数据,这个也是通过合作共享的方式获取到的数据。第三类是通过网络采集的数据,我们今年定的目标就是采集30亿份简历,当然也包括其它数据的采集,我们后面会更加详细的去说。第四类数据是候选人必须到我们的网站授权,在这种情况下授权也会给我们留下数据。中间就是我们的数据分析的过程,包括定级、解析以及各种各样的比对,实际上这就是我们公司做的分析和挖掘。最后其实就是出具的个人征信报告,当然我们的个人征信报告是在职场上的个人征信报告,你天天在外面有男女不同的关系,那些东西我们不是特别关心。
 
最后我们开始讲我们的霸道,我们把什么问题都能够归结到一个数字的时候,你可能就把这个问题想清楚了。举个例子,大家看过奥斯卡评奖,奥斯卡是干什么的,对全世界最好的电影,24项里面都找出一个最好的,到最后归结为一个数字。胡润排行榜其实就是把全世界的人谁有多少钱,把这个钱变成一个数字来描述一下,给这个数字一个排序。我们这边也有各种各样的数字,最右边的就是一个职品分,有一点点类似于大家看到的芝麻征信分一样,这实际上就是我们把这个人在职场上的表现或者这个人的优秀程度或者这个人的可信程度,我们用这么一个数字来标志,这就是我们把这个人的信用问题变成一个数字。这个中间的人脉关系,就是说这个人的人脉有多广,或者他认识多少牛逼的人,就是用了这么一个人脉关系的分来计算,把它变成一个数字。
 
如果我们把我们的问题都能够变成一个个数字,并且计算出来这个数字,你会发现在大数据的时候,你就完成一个很重要的工作。我们也列了在职场这一块需要计算的各种各样的数字,你会发现HR看一个人的时候,我只需要看这个人在一个维度上的数字就行了。你做一个大数据项目的时候,你要想一想这个大数据项目最终归结到计算几个数字吗?如果能够归结出来,也许你离成功就接近一半了。这就是职品汇的霸道。
 
我们再看看王道,也就是说我们有哪些数据呢?这些是我们自有的数据,我有1.5亿份简历数据,上面肯定有你的姓名和手机号码,这些都属于粉丝。而且我们也有物流地址,这上面有你的姓名、你家在什么地方、你公司在什么地方。而且稍微分析一下,我可以找到薛蛮子的5个女人,这是非常隐私的,这些数据都在我们这儿。这就是我们整理的数据,当然整理我们的数据的过程中,我们还要进行一些分析和处理。刚才有一位老总说数据要进行很多清洗和很多工作,我们现在对数据基本上是不清洗的。在大数据时代我们要有三个意识,需要做一些观念上或者思维方式上的变更。第一是全样思维,我们在小数据年代讲究的是抽样,我去抽样来看看怎么样,我想看看今天男女比例是什么样的,我就看第一排有多少男同志和多少女同志,我就知道男女比例。但是在大数据时代我们从来不抽样,我们要的是全样,对应我们在数据采集的时候,我们采集的就是所有的数据,我们也不能够清洗数据。
 
第二是容错思维,容错思维对应到小数据里面,我们就是要做数据的清洗,这些数据可能是不准确的、不精确的甚至是错误的,我们就应该想办法把它去掉。这是在小数据年代我们经常做的事,在大数据年代我们要求别这么做,错误有错误的理由,它为什么会错呢,它是有它的理由的,它存在肯定有一个道理,我们不应该把这些噪音去掉。同时在你这个阶段你认为是噪音,在其它应用场景下可能是正常的数据。
 
举一个例子,如果我们要做说话人识别的时候,我要识别这句话可能是谁说的,那么用得最多的就是“恩、呢、吗”这些词。如果我们要分析这个人说话的内容表示什么含义,这些副词就不重要了,最重要的是动词、名词、形容词,这些都在语音的领域里面,只是两个不同的场景,它需要的数据就完全不同。所以在大数据年代,我们不需要去掉任何数据,这就是我们所说的容错的思维。
 
这是我们其它的一些数据,基本上我们中国的教师在网上有简历的,我们都有简历。中国谁买过什么车,这些数据我们基本上有十分之一。大家发表过什么论文,基本上我们有掌握90%的人发的论文。其它的这些老赖是540万,一直到现在一共公布761万人,我们现在已经采集到700万人,基本上我们的数据量采集还是非常全的,包括人人网的数据,这些我们基本上全部拿过来了。工商的几乎所有数据我们都有,学历认证这一块我们现在库里面是75万,其实我们能够验证5000万人的学历,而且这个学历认证和教育部的学信网学历认证是不完全相同的,高职院校之前的他验证不了,我们这个是不受影响的。
 
这是我们的权威数据,包括公安、运营商的数据,这是稍微标准的数据。银行的数据、网贷黑名单、金融风控的数据,包括运营商的数据。从数据上讲,我们作为一个大数据公司,我们也会收集整理我们的数据,这就是我们今年定的目标,我们还要收集哪些数据。
 
最后一个是讲我们的帝道,其实帝道就是我们说的数学。我们到最后强调的是你把你的什么事情能够用一个数学模型表示出来,也许你就在根本上解决了这个事情。我怎么判断一个人的简历虚假或者怎么解释一个人信用分,中间就是我们的各种各样的计算方法,这边是结果。我们随便举两个,第一个自行提交材料,如果我要向别人证明我是中科院计算所的博士,最简单的是把论文给大家看,大家就知道我真的是中科院计算所的博士,这种属于自行提交材料,当然还有各种各样的论证方式。这边是我们在数学上计算一个人的评分,这个人的职品分905分是怎么打出来的,这是需要计算的,就有一个计算模型。这是我的个人经历,我是硕士是在山东大学上的,为什么要从山东大学到中科院去呢?我个人可能认为中科院比山东大学好一点。
 
这些计算出来之后,我就形成一个有向图,而我们手上有1.5亿份简历,中间2000多份简历中就有从一个学校到另外一个学校的。而中国的学校只有3千所,这个图是非常稠密的图,很好分析和挖掘。我们形成这么一个有向图之后,我们就在这个有向图上进行分析挖掘,这个分析挖掘的算法我就不在这里跟大家说了,大家可以参考谷歌的算法。我可以算出来究竟中国哪所大学是最好的,大学的排名就这么出来的。
 
这是中国公司的排名,中国有8千万家公司,到底哪家公司最好,腾讯好还是哪家公司好,我们也会对这些公司进行排名。这是职位的定级,我们就不用看了。到最后实际上这就是一个统一的模型,我们不仅仅要对中国所有高校对计算级算出到底谁好谁差,对中国8千万家公司算出谁好谁差,中国有9.2亿从业者,在座都是这9.2亿人中的佼佼者,这些人到底谁最厉害、谁的信用不好,我们也是要进行计算的。这里我们有一个迭代的模型,我们认为好的学校的人会去好的公司,好的公司的人可能会来自比较好的学校的人或者来自比较牛的人,这四者之间进行一个迭代。这个模型是可以收敛的,一收敛以后,每个人的分就出来了,这个分不依赖于你平时的信息,只要我们把这个网络构建好了,我们这个分就能够算出来,而且它不依赖于其它的个人信息。
 
所以这边有一个征信模型,我们的征信模型其实很简单,每一个人的信用状况怎么样取决于他的朋友是什么样的朋友,也就是说你的信用状况可以等同于你的朋友的信用状况的一个平均值,这样把你的所有朋友加起来,你的信用分就算出来了。我今天跟大家分享的内容大概就是这些,谢谢各位!

关键字:大数据

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^