独家专访 | 揭秘LinkedIn总部数据科学战队:技术强者常有,顶级团队胜在软实力

简介: 从某种程度上讲,目前硅谷乃至全球最火爆的职业【Data Scientist】始于LinkedIn。 2008年,LinkedIn的数据科学团队负责人DJ Patil 和Facebook的Jeff Hammerbacher分别建立了全世界前两个真正意义上的数据科学团队,并且开始用“数据科学家(data scientist)这个词来描述他们的工作性质。


0?wx_fmt=jpeg


从某种程度上讲,目前硅谷乃至全球最火爆的职业【Data Scientist】始于LinkedIn。


2008年,LinkedIn的数据科学团队负责人DJ Patil 和Facebook的Jeff Hammerbacher分别建立了全世界前两个真正意义上的数据科学团队,并且开始用“数据科学家(data scientist)这个词来描述他们的工作性质。在这之后,Data Science这个行业和Data Scientist这个职业逐渐流行开。


而要探索数据科学团队的建设,没有哪个团队比LinkedIn及其用户增长部门数据科学团队的负责人周洋更有发言权。


2013年加入LinkedIn增长与国际业务部门,周洋带领自己的数据科学团队见证了LinkedIn用户量“稳定且健康”的增长并从数据上提供业务支持,帮助LinkedIn实现全球注册用户从二点五亿到五亿的增长,而他将这些归功于LinkedIn对数据团队的重视和数据驱动的文化氛围。


周洋认为,一位合格的数据科学家的终极目的是解决“不确定性”。他不仅应该是致力为公司解决实际问题的科技人员,同时在战略决策层面,也应该要有为公司发现新的利益增长点的商人格局。


0?wx_fmt=jpeg

LinkedIn(领英)增长与国际业务数据科学负责人 - 周洋


 数据科学团队 

 “嵌入式”工作日常 

 数据科学家跟跑全程 

“数据科学家要帮助产品经理实现增长用户的目的,为产品团队提供技术支持,另一方面与工程师确定最后如何实现技术落地。”周洋如此描述一个数据科学团队工作的最核心内容,这也是被他称作“嵌入式”的数据科学团队工作图景。


走进周洋的数据科学团队,你首先可以从“座次表”看出他们“嵌入式”的工作模式:这个20多人的数据科学家团队是嵌入在LinkedIn 150多人的增长产品团队中的,数据科学家与工程师、产品经理从“地理位置”上首先有一种亲近感。


“我们的数据科学家大多数都和他们支持的业务团队在一起,比如支持病毒式增长(virus growth)的科学家就和这个团队的业务负责人坐在一起,我又跟增长团队负责人坐在一起,这种嵌入式模式非常有效。”周洋称。


这种嵌入式的合作模式在科技公司非常常见,数据科学家在产品团队中,与产品经理和工程团队一起,是整个团队的三根支柱(pillar)。只有这三根支柱紧密协作,才能让整个产品团队将各自的专业优势发挥到最大,使得产品团队能够高效运行。


一方面需要对公司业务和痛点有足够深刻的认知,才能与产品经理合作,寻找业务增长点和机会;另一方面,数据科学家与工程师及时有效的沟通,也能保证更准确地度量新产品对于用户行为的影响,保证最大化向用户传递的价值。


周洋称,LinkedIn是一个有着强大数据驱动文化的公司,我们希望数据科学家能够一个人跟完整个产品周期数据科学家越早的进入整个过程,越能够更有效率的工作,而在开展新人培训时,也会强调这一点。


“季度之初,数据科学家会跟业务部门沟通新一季度的工作计划,哪些需要数据支持。”在具体工作的实施上,周洋称数据科学家会从一开始就主动介入,“我们会帮他们确定要做什么,哪些需要跟进。对于一些战略性或者可拓展性的工作,(不紧急但是重要的)我们也会明确去做。”


对产品的技术支持是数据科学团队最基础的职责,也占了周洋团队日常工作的70%。剩下的20%和10%的时间分别用于战略性项目或者风险项目。

                                             

0?wx_fmt=png

0?wx_fmt=png

金字塔结构:数据团队提供的价值和对应职能


如果说一个数据科学团队通过金字塔底部70%的工作确保了一个公司日常工作的高效率,那么占日常工作20%的战略决策工作则决定了一个公司的发展前景。


对于一个数据驱动的公司,数据科学家的眼界对公司创新的想象力有着很重要的影响,数据科学家在战略决策层面将有机会向公司高管提供建议,并能够确保战略的实施,从长远来讲对科技公司的发展意义深远


 数据民主化 

 让每一次决策 

 有“数”可寻 

一个公司能否有领先市场的发展,决策者的眼界非常重要,高管对数据是否敏感,能否下决心把数据推动做好,决定了这个公司的前景和竞争力。


LinkedIn的CEO Jeff Weiner以强大的运营背景著称业内,受其影响,整个LinkedIn的数据驱动文化也颇为强大,高层对数据和技术非常敏感。

0?wx_fmt=png

LinkedIn(领英)CEO Jeff Weiner


关于这点,周洋提到了一个细节,Jeff Weiner每天早上都会看一份每小时更新的数据报告,根据报告他能迅速了解到关于业务表现的很多信息,他还会将发现的问题立即发回至业务团队寻求解答。由于数据团队创建的“优质运营(operational excellence)”框架,很多时候这些问题都会从现有的数据报告中找到答案,或者已经提前发出通知。


周洋认为,其实不仅CEO和高管,数据科学团队应该为公司不同层面的每一次决策提供战略支持,周洋称,“小到页面浏览量下降的原因,大到一个公司发展的战略方向,解决不同层面决策者面临的不确定性问题是数据科学家的终极目标。”


数据科学团队的任务不该止步于技术开发,他们更大的价值是将一个虚无缥缈的概念剖开,成为数据可以解答的问题——建立框架和分析角度,分解大而全的问题,用数据分析给出小而美的答案,进一步将其变成产品建议,进而为领导层提供决策依据。


而为了让业务部门养成数据决策的习惯,周洋的团队开设了一些内部培训,比如组织数据类专题讲座Data Boot Camp,对公司不同角色的人,包括产品经理人、产品设计师和工程师进行数据平台使用的培训:教他们去使用相关系统,去了解与数据科学家合作的整个流程。这个过程最主要的目的是让数据更加民主化,并培养他们跟数据科学团队合作的习惯。


更重要的是让管理者真正看到数据给商业带来的价值。只有当公司的大部分成员开始享受数据团队带来的便利时,整个团队的效率才会共同提升,数据科学家的价值才会被广泛认可。”周洋称。


 可扩展的数据分析解决方案:

 将数据科学家从 

 重复性劳动中解放出来 

可扩展的数据分析解决方案是LinkedIn另一个让周洋引以为豪的工作成就,也是数据科学团队金字塔最顶端的工作。可扩展的数据分析解决方案看似只是在运营实施过程中进行流程优化和自动化,实际上意义重大。


A/B测试是数据产品上线后的例行步骤,也是让很多数据科学家头疼的麻烦事。之前,LinkedIn测试的过程需要数据科学家对每个A/B测试手动写代码并在数据平台上计算,非常费时间。后来,数据团队建立了一个平台,将A/B测试的过程简单化、自动化。自那以后,每次做测试,工程师可以直接在平台上创建调试,产品经理也可以在测试开始几小时后直接去平台上查看测试结果,其中包括数千个度量(metric)指标以及所有相关的统计计算,整个过程几乎不需要数据科学家的介入。在这个平台上,同时有上千个A/B测试在同时运行。


在这个小的工作流程优化上,LinkedIn非常有预见性地将数据科学家从重复繁琐的劳动中解放了出来,使他们可以更专注地做需要创造力和判断力的工作,整个团队的工作效率和影响力(impact)因此大大提高;从另一个角度上,也说明LinkedIn的数据战略渗透地非常彻底。

  

 我的公司需要 

 一个数据科学团队吗?

在数据驱动、大数据大行其道的今天,似乎每个公司都在招募一个数据科学团队,或者至少是一个数据科学家。


“我的公司需要一个数据科学团队吗?”这是目前困扰很多公司,尤其是初创公司的难题。


周洋对此有自己的想法:“应该有,但是在不同的阶段,不同的公司应有不同侧重。处于不同阶段的公司对数据的需求不同,数据的解决方案也不同,公司应该先了解自己的业务特点,再决定制定适宜的数据战略,对自身实际情况有一个准确的定位才能起到事半功倍的效果。”


著名的二八法则在这里颇为适用。周洋建议,对于大部分刚起步的小公司来说,首先应该用20%的时间去实现最基本的数据支持,这样可以达到80% 的业务提高,而剩下20%的提高却需要投入80%的资源才能实现。那么,在人力和资源都极其缺乏的情况下,一家初创公司最重要的任务不是去实现先进和复杂的算法,而是利用现有的开源软件、工具包和最基本的算法实现从无到有的数据支持。


 解决各个层面的“不确定性” 

 是数据科学家的终极目的 

那么一个好的数据科学家到底应该有什么样的属性呢?


周洋认为决定一个科学家优秀程度的重要因素并不是技术水平。在他看来,技术是可以培养提高的,但一个数据科学家对业务问题的批判性思维、拥有将业务问题拆分成可回答的数据问题的转换能力,以及最终将解决方案清晰简洁地传达给决策者的沟通能力,才是优秀数据科学家的价值体现。


这里我们直接摘录周洋的原话,以期给各位完整呈现LinkedIn对数据科学家的期待。


周洋:很多时候,一个数据科学家的技术能力是可以训练出来的,一个通过面试的计算机、统计、运筹学、数学、电子工程相关领域的人才,他的计算能力、编程能力都不会太差。而真正困难的是对业务的了解。


我们数据科学团队的宗旨是:To make data-driven decision at scale。这里有几个关键词:数据驱动(data-driven),决策(decision),可扩展化(scale)。我们通常会鼓励我们的数据科学家积极主动地介入业务,比如我们在接到到业务部门的问题时,应该多问一下,你为什么想要知道这个数据,你为什么要问这个问题,上下文(context)是什么,最终要解决什么样的业务问题。多问几次,有时候会发现,提问的人想知道的问题,并不是他问的这个问题可以解决的。那我们再一起来探索、分析你想了解什么,怎么样通过数据分析去解决。但团队的目的不是分析,而是通过分析达到洞察(insight),从而提出建议。


不要用工程师的衡量标准(写了多少代码)来衡量数据科学家。我们衡量工作的标准是对业务产生的影响:寻找新的业务机会、改进现有业务流程、或者确定业务方向。


对于数据科学家来说,最终要解决的问题是“不确定性”。这个不确定性会有很多不同层面,每个不同层面也都有不同的决策者:微观的层面,工程师会希望知道浏览量下降了5%是否应该引起重视?产品经理会想要知道,一个产品想法能否有效落地?再大一点,对于CEO来说,他会想要知道,公司的发展策略上,如何再增长10亿用户?这都是一些不确定的东西。数据科学家的工作是去消灭各个不同层面的“不确定性”。


实施分析是很多人都能做的,但是回到业务起始,解决充满不确定性的抽象问题,才是最难得的品质:从拿到这个问题,到回答这个问题,包括拿到这个问题的批判性思维,通过一个框架把问题剖析分析成很多不同的角度和任务,告诉决策者应该怎么做。


你向决策者呈现的不一定是一个很高大上的可视化图表,而更应该是可以用一句话描述的内容,甚至可以不包括数字。比如告诉我们的CEO,应该更好的发展移动端战略。而关于为什么要这么做,我们再进一步去展示数据维度的原因。我们的最终目的始终是帮助决策者决策。


那么总结来说,我认为一个好的数据科学家应该有以下两种技能:

1、批判性思维,能够把一个业务问题有效拆分,通过一个系统框架转化为数据分析子问题;

2、沟通能力,拿到分析结果后能够总结洞察并提出业务建议,然后精准且有效率的与决策者沟通,辅助其决策。


这两个技能是我们对团队中资深数据科学家的要求。


周洋说,“我非常欣赏LinkedIn的一点是,除了它的数据驱动文化,LinkedIn鼓励一个人不要做螺丝钉,给每个人包括数据科学家更大的发挥空间,鼓励他们跳出自己的“数据专家”角色局限,做一个真正有影响力的问题解决者。LinkedIn也十分鼓励每个数据科学人才找到自己的长处,实现个人价值的最大化。”从这些我们可以看出LinkedIn的内部文化非常提倡每个人不断超越自我,各施所长。


不要局限于自己现有的固定角色。这一点不仅对数据科学家或数据科学团队很重要,相信也是这个时代的每个人都应铭记于心的生存准则。


* 读完这篇文章,如果你对于领英团队和周洋老师有一些其他的问题,欢迎留言给我们,我们将整理留言中点赞数最高的前5个问题,回馈给周洋老师,并予以解答。

如果你在读完这篇文章后,被领英数据团队的文化打动,也有了加入领英数据团队的冲动,领英中国团队正在招聘高级数据科学家 – 产品数据分析等相关职位,请在大数据文摘后台回复 领英 获取相关招聘信息。


0?wx_fmt=jpeg

原文发布时间为:2017-04-11

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
人工智能
全球AI人才报告:硅谷40万人大裁员,码农地狱级面试12场!
【2月更文挑战第24天】全球AI人才报告:硅谷40万人大裁员,码农地狱级面试12场!
28 2
全球AI人才报告:硅谷40万人大裁员,码农地狱级面试12场!
|
11月前
|
Java 开发者
【年终特辑】看见科技创新力量 洞见时代创业精神—企业服务—渡阡科技:致力于帮助全世界的自由职业者实现职业自由
【年终特辑】看见科技创新力量 洞见时代创业精神—企业服务—渡阡科技:致力于帮助全世界的自由职业者实现职业自由
|
编解码 安全 IDE
隐居、反内卷,不意味着躺平|专访 2021 年度「杰出新自由软件贡献者奖」得主
首先需要说明的是,这不是一篇关于 Emacs 的“广告”。当然,有可能在你看完这篇文章后,确实会想试试 Emacs 这个历史悠久(1975 年诞生)且有其独特魅力和生命力的编辑器。
104 0
隐居、反内卷,不意味着躺平|专访 2021 年度「杰出新自由软件贡献者奖」得主
|
机器学习/深度学习 人工智能 编解码
CVPR 2017国内外亮点论文汇集:史上最盛大会议,华人占据半壁江山
深度学习界的「春晚」CVPR 2017 已在夏威夷火奴鲁鲁 Hawaii Convention Center 开幕,在本次大会接收的众多论文当中,有华人参与的接近半数。这七百余篇论文中有哪些亮点?众多参会的中国研究机构又贡献了多少?我们为你整理了一篇观看指南。
262 0
CVPR 2017国内外亮点论文汇集:史上最盛大会议,华人占据半壁江山
|
人工智能 算法 前端开发
“数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人
“数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人
221 0
|
机器学习/深度学习 人工智能 JavaScript
洞悉2020年数据团队建设,我们和清华、领英一起搞了个大事情,你也可以参与!
洞悉2020年数据团队建设,我们和清华、领英一起搞了个大事情,你也可以参与!
197 0
|
人工智能 编解码 达摩院
为拿下算法 “奥斯卡”,阿里团队设计了一个冠军方案
被誉为计算机视觉领域 “奥斯卡” 的 CVPR 刚刚落下帷幕,2021 年首届 “新内容 新交互” 全球视频云创新挑战赛正火热进行中,这两场大赛都不约而同地将关注点放在了视频目标分割领域,本文将详细分享来自阿里达摩院的团队在 CVPR DAVIS 视频目标分割比赛夺冠背后的技术经验,为本届大赛参赛选手提供 “他山之石”。
为拿下算法 “奥斯卡”,阿里团队设计了一个冠军方案
|
机器学习/深度学习 人工智能 自然语言处理
是什么成就了中国最具创新力的公司,帮他们的超脑计划孵出阿尔法蛋?
很多人都知道“阿尔法狗”,不过你听说过“阿尔法蛋”吗?
525 0
|
人工智能 达摩院
第一批95后已经是阿里科学家了
14岁高考23岁博士毕业加入阿里,胡晋觉得AI是未来世界的原力,希望能成为“掌握原力的绝地武士”。
3084 0
|
大数据
业界|比尔盖茨推荐,三个数据中的世界动向
近几年来,我们发现只需要在网上快速搜索一下,便可轻松获取全球发展的重要统计数据。由于现在获取信息如此便捷,许多人认为记住这些数据没有任何意义。他们会说,“需要的时候查找一下就好啦!”
1151 0