LinkedIn利用“菱形”分析模型将大数据做小
作者:王聪彬 【原创】 2013-05-11 09:30:35
身穿白大褂,手拿手术刀的神经外科医生,现如今却游走在科技行业做着数据分析,“兴趣”成就了这样一位与众不同的数据科学家LinkedIn商业分析总监张溪梦。
ZDNET至顶网CIO与应用频道 05月10日 人物访谈(文/王聪彬): 身穿白大褂,手拿手术刀的神经外科医生,现如今却游走在科技行业做着数据分析,“兴趣”成就了这样一位与众不同的数据科学家LinkedIn商业分析总监张溪梦。其在2013 Teradata大数据峰会上接受采访时表示,大数据要做小才能帮助内部团队快速的运行,并且提供给客户“最终分析结果”才能达到价值的最大化。
LinkedIn让数据分析人
LinkedIn是拥有两亿用户的全球最大职业社交网络媒体,而且并非纯社交网络媒体。到目前为止,全球85%的“财富100强”企业每年使用LinkedIn,而且大约270万个公司在LinkedIn上建有自己的主页。
张溪梦指出,很多人都认为LinkedIn就是一个找工作的平台,实际上根据内部数据显示,只有20%的人是比较活跃在求职,大约80%用户主要的商业目的是和其他专业公司建立关系。实际上,LinkedIn的核心宗旨就是连结世界上所有的专业人士,让他们变得更有效率、更成功。
LinkedIn主营三大业务,人力业务占53%,市场推广、广告占27%,高级订阅服务占20%。目前LinkedIn大约有3500名员工,业务分析团队拥有将近60人,直接支持将近3000个内部员工,其中包括产品、市场推广、运营、研发等重要部门,其他部门则有专门的分析师在支持。
在大数据时代,LinkedIn正是利用数据产生价值,很多产品都是通过数据开发出来的。其中,LinkedIn最核心“猎头”业务就是数据产品,可以帮助公司找到理想的人。张溪梦表示,LinkedIn认为公司未来长远的成功完全建立在人的基础上,而不是建立在硬件或者技术基础上,人是决定一切的因素,LinkedIn让数据来分析人,让这些人更成功。
在刚刚公布一季度业绩上看,LinkedIn的营收超过了预期,业界也普遍看好职业社交网络发展。张溪梦认为,LinkedIn和社交网站的专注点并不相同,受众完全不同,未来SNS社交网络和专业招聘网站会有融合趋势。
大数据如何做小?
LinkedIn内部大概有25种不同的数据库技术和数据解决方案,其中一半是LinkedIn内部开发,同时也选择了Teradata数据仓库和Teradata Aster大数据探索平台。LinkedIn看中Teradata是因为其多年的数据仓库经验,并且其是市场里最成熟、最稳定、速度快的特性,可以满足LinkedIn的需求。
据悉,LinkedIn内部有四个部分,目前每一个部分的数据增长都在千倍左右。张溪梦也深知数据量增加,并不表示价值呈正向增高,可能将导致了商业价值的降低。LinkedIn需要做的是将很大的数据做小、做快,这样能帮助内部团队快速的运行。
为了实现将大数据做小,LinkedIn把分析模型从原来的金字塔结构变成了菱形,这样就相当于少了一半的时间。“用技术把底部变小,并不是不做底部的东西。这个模型在过去两年内,效率提高了五百到一千倍,这就是为什么50人的团队可以支撑3000多人的工作。”张溪梦介绍说。
“我们常说的‘授之以鱼,不如授之以渔’,LinkedIn则是相反不把中间过程暴露给客户和员工,直接把最后的分析结果交给他们,达到价值的最大化。”
此外,“你可能认识的人”这个产品计算量很大,原来计算一次需要几天到一个星期。后来使用Teradata Aster来计算整个数据流,目前在新平台上几个小时就可以得出结果,速度比原来提高了几十倍。同时,Teradata数据仓库目前主要用在内部的商业智能分析上。
“在开源和闭源之间有一个平衡,”张溪梦表示,LinkedIn目前也在渐渐从闭源移到开源,开闭源都有自己的优势,最好地实现商业目的是最重要的。
“兴趣”成就数据科学家
一项调查显示,美国15%的人喜欢他的工作,85%不喜欢他的工作。张溪梦指出,学之者不如好之者,好之者不如乐之者。人必须要感兴趣的事,才能真正全心投入,做出很大的成绩。
而数据科学家应该具备哪些素质?张溪梦认为,兴趣是首要,之后需要找到“天时、地利、人和”三件事。制定一个远期的目标,自己做好准备,找到正确的时间、地点,再加上努力就一定会成功。
张溪梦讲到,国内开发者少了些创新性,创新性有时候是灵光一闪,但是闪的灵光确实需要很多积累做铺垫。
“中国历史教会我怎么招人,怎么找到人才。”采访中他津津乐道地谈论着中国历史和数据分析的不解之缘。
LinkedIn的业务分析团队平均年龄在30岁左右,这在美国这是非常年轻的队伍。当时,发现这些人都是通过LinkedIn本身的网络,再通过别人推荐,一步一步的发掘。张溪梦在招聘上的原则正是促成这个年轻团队的原因之一,“招年轻的人、招饥饿的人、招郁闷的人。”
同时,张溪梦也认同任何企业在数据收集上都应该尽可能收集全数据,但由于成本问题很多数据可以不做分析,所以要平衡掌握好那些需要收集。另外,企业要在用户隐私上要加大投入,永远把用户利益放在首位,而不是商业利益。
最新文章
Google 报告:AI 助力使代码迁移时间减半
Windows 用户现可在设置中开启管理员保护功能
LightSpeed 和 Neos 在英格兰中部和东部地区扩展网络连接
为“代理式AI”装上“护栏” NVIDIA打造“三重防线”
产业丨谷歌成立新团队模拟物理世界AI模型
书生·浦语大模型升级,突破思维密度,4T数据训出高性能模型
突发!Sam Altman收到美国参议院信,OpenAI将面临调查
中央政法工作会议:要研究无人驾驶、人工智能、虚拟货币、数据权属等新问题,通过立法规范平台行为、加强新就业群体合法权益保护
“生成式AI之父”尤尔根·施密德胡贝尔:AI的进化将使宇宙变得更复杂和智能,人类只是该过程中的一步
NVIDIA GPUs H100 vs A100,该如何选?
服务器基础知识全解(终极版)
企业需要做出更明智的选择以减少生成式 AI 碳排放