LinkedIn最广为人知的功能莫过于People You May Know(你可能认识的人)功能,而在第五届云计算大会最后一天的云计算核心技术架构专题论坛上LinkedIn商业分析部高级经理Jonathan Wu为我们带来了LinkedIn的其他特色功能产品和大数据技术架构展示。
据悉,LinkedIn是世界上最大的专业人士社交网络,全球范围内有2.25亿用户,并且以每秒2个新用户的速度增长。其还是一个解决方案供应商,88%的财富100强企业在使用LinkedIn的付费解决方案,有超出290万的公司主页及相关讯息。
这些用户为何会选择LinkedIn?Jonathan指出,LinkedIn有专业的身份可以帮拓展人脉发现机遇,专业的内容全方位掌握业界资讯,专业的平台随时随地了解人脉动向。
另外Jonathan还展示了LinkedIn的业务模型,因为其本身就拥有海量的数据,通过这些数据创造出有价值的产品和服务,来增加用户数量和用户粘性,这样数据还会不断增长从而形成了一个闭环。
据悉,LinkedIn有人才、市场、高级订阅服务三大商业解决方案。而且三大将商业解决方案的盈收每年也成翻倍增长趋势,而其中应占盈收比例最大的是人才解决方案。
而在LinkedIn内部50人商业分析团队就几乎支持了70%将近4000名内部员工,其包括了数据展现和数据挖掘三大团队,涵盖了市场、销售、产品、研发、运营五个主要商业职能部门,覆盖了三大业务分支。
LinkedIn的数据按用户分为用户特征数据、用户行为数据、用户网络数据。按数据存取速度分为在线数据、近线数据、离线数据。
Jonathan介绍到LinkedIn的大数据技术架构,其三级数据架构根据不同性质的工作设计,其中近线数据存储在Voldemort分布式数据库,在线数据存储在Oracle、Espresso,服务器日志存储在Web Logs。使用Kafka发布数据,通过Databus捕获在线数据,而所有的离线数据由 Hadoop 和Teradata数据库构成。
LinkedIn还对开源社区做出了不少贡献,像Azkaban、DataFu、Kafka、Voldemort、White Elephant、Helix、Kamikaze、Norbert等。
此外,LinkedIn做大数据的指导思想也在不断变化,将之前的三角形的底部变小,变换成菱形减少了数据分析和集成的时间,之后的目标是把菱形变成圆形。Jonathan表示,我们做大数据的原则是随时准确的提供信息,并且将大数据做小做快,一个输入一个按钮在小于3秒就可以得出报告。