至顶网CIO与应用频道 06月15日 北京消息:“数据科学家(Data Scientist)”作为一个从硅谷发端的新兴概念,近年来已经被世界各地的科技企业热议。对于这样一个神秘又重要的角色,大多数人对它的理解仅限于“数据科学家就是集技术专家与数量分析师的角色于一身,采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师”。6月15日,LinkedIn增长与国际业务数据科学负责人周洋在第九届中国云计算大会上与国内外互联网一线公司相关技术高管及各大研究院的技术专家就云计算大数据技术、产业和应用等话题进行深入交流,并分享了自己多年从事数据科学工作的经验和心得。
数据科学团队的发源要回溯到2008年,时任 LinkedIn数据产品团队负责人的DJ Patil和Facebook的Jeff Hammerbacher分别建立了世界上最初两个真正意义上的数据科学团队。为了与传统意义上不成建制的数据部门作区分,他们选择“数据科学家(Data Scientist)”一词来准确描述自身的工作性质。而后随着全球数据化趋势的愈演愈烈,这一职业称谓被各大公司机构所沿用,在世界上逐渐流传开来。正因如此,从某种意义上说,“数据科学家(Data Scientist)”的“发源地”之一,就在LinkedIn。
前LinkedIn数据产品团队负责人DJ Patil
LinkedIn从一家以数据为驱动的硅谷新锐,到成熟的大数据公司,周洋比任何人都更清楚数据对于一家企业长远发展的重要意义。自从2013年加入LinkedIn,周洋带领数据科学团队在战略决策层面不断为公司探索新的利益增长点,将工作发展过程中各种“不确定性”明朗化,见证了LinkedIn全球注册用户从2.5亿到5亿的“健康、平稳、持续”性增长。
数据科学团队是公司“三大支柱”之一
数据科学家在公司扮演怎样的角色?一方面,他们帮助产品经理实现增长用户的目的,为产品团队提供技术支持,另一方面与工程师确定最后如何实现技术落地。因此,数据科学家需要对项目业务和痛点有足够深刻的认知,才能和产品经理共同寻找业务增长的机会;同时要与工程师及时有效地沟通,确保新产品能够最大化地向用户传递价值。在产品团队里,数据科学家与产品经理和工程团队一起,组成整个团队的三根支柱。只有这三根支柱紧密协作,才能将各自的专业优势发挥到最大,使得产品团队能够高效运行。
LinkedIn增长与国际业务数据科学团队就是这样一支精锐部队,这个20多人的数据科学家团队是嵌入在LinkedIn 150多人的增长产品团队中,成员们被分散到各个项目里,与项目经理和工程师坐在一起,组成这个“新团队”的“三大支柱”。周洋称,“我们的数据科学家大多数都和他们支持的业务团队在一起,比如支持病毒式增长的科学家就和这个团队的业务负责人坐在一起,我又跟增长团队负责人坐在一起,这种嵌入式模式非常有效。而且,数据科学家大多会跟完整个产品周期,越早的进入项目过程,越能够更有效率的工作,而在对于新人培训时,也会强调这一点。”
LinkedIn(领英)增长与国际业务数据科学负责人周洋
数据科学家不止步于技术
与传统意义上的数据工程师、数据分析师不同,数据科学团队的任务不该止步于技术开发。周洋认为,决定一个科学家优秀程度的重要因素并不是技术,因为在他看来,技术是可以培养提高的。一个通过面试的量化领域(quantitative field)如计算机、统计、运筹学、数学、电子工程等相关领域的人才,其硬技能( hard skills)如编程能力、统计等是比较容易衡量的。而真正困难的是批判性思维和沟通能力。一个数据科学家对业务问题的批判性思维、将业务问题拆分成可回答的数据问题的转换能力、以及最终将解决方案清晰简洁地传达给决策者的沟通能力,才是优秀数据科学家的价值体现。
“在LinkedIn,我们从来不用工作量(如写了多少代码)或工作时间长短来做数据科学家的绩效考核。我们衡量工作的标准是对业务产生的影响:寻找新的业务机会,改进现有业务流程,或者确定业务方向。”
LinkedIn数据科学团队的宗旨是:To make data-driven decision at scale。这里有几个关键词:数据驱动(data-driven),决策(decision),可扩展化(scale)。周洋介绍到,“我们鼓励数据科学家积极主动去介入业务,比如我们在接受到业务部门的问题时,会去积极理解这个问题的上下文以及最终要解决什么样的业务难题。有时候问问题的人想知道的问题,并不是他问的这个问题可以解决的。我们鼓励我们的数据科学家成为业务伙伴的思考伙伴(thought partner),一起来探索、分析业务需求,以及思考怎么样通过数据分析去解决。但团队的目的不是分析,而是通过分析拿到洞察,从而提出业务建议。”
决策(decision)和创新(innovation)是数据科学家的终极任务
对于数据科学家来说,最终要解决的问题有两点:决策和创新。通过数据去实施具体分析是很多人都能做的,但是从业务的层面发现并解决抽象问题,才是最难得的品质:从拿到这个问题,到回答这个问题,包括拿到这个问题的批判性思维,通过一个框架把问题剖析分析成很多不同的角度和任务,帮助决策者做出数据支持的决策,或者创造新的数据产品实现业务提升。
我们处在大数据时代,但是大量的原始数据就像金矿,在被充分利用之前,其价值并没有显示出来。数据科学家首先需要和不同团队协作,构建完整的数据生态系统。这其中包括数据采集、ETL、存储、计算、分析、试验、可视化等。在这个生态系统上,数据科学家应当提供高价值的决策和创新工作。
“不确定性”的问题存在于业务中很多不同的层面,而数据科学团队应该为各个层面的决策者提供支持。例如,微观的层面,工程师会希望知道浏览量下降了5%是否应该引起重视?产品经理会想要知道,一个产品想法能否有效落地?CEO 会想要知道,公司的发展策略上,如何向移动端转移?这都是一些不确定的问题,需要数据科学家通过数据分析为业务决策提供数据支撑。
在提供业务决策时不一定是一个很高大上的可视化图表,而更应该是可以用一句话描述的内容,甚至可以不包括数字。比如告诉我们的CEO,应该更好的发展移动端战略。而关于为什么要这么做,我们再进一步去展示数据维度的原因。将一个虚无缥缈的概念剖析开,建立框架和分析角度,将大而全的问题分解,用数据分析给出小而美的答案,进一步将其变成产品建议,进而为决策层提供决策依据。
数据科学家的价值同样体现在业务创新上。在对业务和数据深刻理解的基础上,数据科学家需要能够通过分析发现业务机会,设计并创建数据产品来将业务机会转换成业务提升。
随着数据对于企业发展的重要性越来越被认可,数据科学团队势必会逐渐落地于每个公司。“我非常欣赏LinkedIn的一点是,除了它的数据驱动文化,LinkedIn鼓励一个人不要做螺丝钉,给每个人包括数据科学家更大的发挥空间,鼓励他们跳出自己‘数据专家’的角色局限,做一个真正有影响力的问题解决者。LinkedIn也十分鼓励每个数据科学人才找到自己的长处,实现个人价值的最大化。”
好文章,需要你的鼓励
富士通的 Monaka 是一款巨大的 CoWoS 系统级封装 (SiP),它有四个 36 核计算小芯片,采用台积电的 N2 工艺技术制造,包含 144 个
ChatGPT还与超级应用WhatsApp完成了集成,同样是这个号码可以直接发短信咨询各种内容,使用方法和web、移动版本一样。
十年前,如果你问某人什么是互联网,他们可能会说它是在计算机屏幕上查看的网页的集合。当今的在线体验依赖于应用程序、设备、流