如何应对数据科学的“负担症候群”

简介: 为什么“负担症候群”在数据科学中如此流行,我个人是如何处理这个问题的?应该如何鼓励那些正在受影响的人?本文对此进行了详细的阐述。

        “负担症候群”为何在数据科学中如此盛行?其原因如下:

(1)数据科学是一个全新的领域。

2011年,DJ Patil和Jeff Hammerbacher首次被冠名为“数据科学家”。从那时起,我们一直都想弄明白数据科学到底是什么?“数据科学”的不同定义导致了我们对数据科学家应该是什么感到困惑。在此之前,由于“数据科学”也未曾在大学里教过,绝大多数的数据科学家并没有“数据科学”文凭,他们中的大部分也都是来自其他领域。

(2)数据科学是一些领域的综合。

数据科学家可以是分析员/统计师/工程师/机器学习专家/可视化专家/数据库专家/业务专家的组合。他们每个人都在自己的领域具有很资深的地位,从上述任一领域来到数据科学领域的人跟其他人会有明显的差距,这也是完全合理的。

(3)采用新技术,数据科学的范围正在不断的扩大。

随着计算机内存变得越来越便宜,开源代码也越来越流行,越来越多的人对学习数据科学及其相关领域感兴趣,和数据科学相关得技术也在健康的发展。这对于社区和效率来说都是好事,也为数据科学家们提供了大量的新技术来学习。

具有不同背景的人来到一个新的有许多实际应用的领域时,这个新领域的界限也并没有很明确的定义(从而不可避免的导致他们对整个领域的知识存在空白),其技术的发展速度使人们很难跟上。这是数据科学家在2018年所面临的困境,也是为什么有这么多人会受到“负担症候群”的影响。

应对负担症候群的秘诀

我了解的每位数据科学家都在不断的学习,它可能是个很小的东西(一个工具或是快捷键)或者是更大的东西(一个新算法或编程语言),但是我们都在不断的学习,这很重要。对于我来说,每个人都在学习的这个领域让我感到兴奋的同时,同样也产生一种恐惧感(如果我学到的知识是别人已经知道了呢?),这种恐惧感就是“负担症候群”。

我处理“负担症候群”的方法是:我知道永远无法学习到数据科学中所有的知识——我永远不会了解每一个算法,每一种技术,每个包,甚至是每一种语言,这都没有关系。在这个多元化的领域,最伟大的事情就是没有人会知道所有的这些事情。

同样,我也会知道别人所不了解的知识。我已经为几十所大学和非盈利组织构建了预测模型,具有成功创建和分析A/B测试所需要的经验,并且正在学习如何在实际生产中使用机器学习模型。这些并不是每个人都有的技能,有些人比我更了解计算机科学或机器学习,又或者是Macbook快捷键。没关系,多样性是件好事,我也可以从这些人那学习他们的技能。强大的Venn图可以阐述你与其他人的关系,以及如何重叠的。你所了解的知识很少是其他人了解的子集,而是重叠关系,这也会使你与别人不同。

32ffadf49778787236575f16b73b6c7c3b22d358

社区内降低负担症候群

如果我们一致认为数据科学家都在工作中不断的学习,那么我认为,为了在更大的数据科学社区降低“负担症候群”影响,我们能做的就是公开认可它并致力于建立一个健康的学习环境。

·适应“I don’t know”。

当人们说“我不知道”的时候,需要很大的勇气承认,我很尊敬这样做的人。让人们更加适应“我不知道”,一种方法就是建立良好的社会规则(当有人不知道时,不要假装惊讶,而是将他当做幸存者之一)。

·不要“假装成功”

有信心当然是好事,但是“imposter”实际上就是欺骗,而且我认为,想要成为更好的数据科学家,我们可以做的比“伪装”更好。“伪装”很有压力,如果你陷入一个谎言,可能会造成长期的伤害和失去其他人对你的信任。

·鼓励提问

勇于提出问题有两个好处:一是通过围绕问题的对话获取知识;二是公开提问可以鼓励他人提问。提出问题正是数据科学家应该做的事情,我们应该鼓励。

·分享你所学到的知识

当我看到其他人在分享他们正在学习的知识时,这也有助于从自己的角度看待我自己的学习情况——而且我对于该话题是否了解的比较多,也激励着我去了解这个对于他们来说是新知识的话题。


以上为译文。

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《imposter syndrome in data science,译者:Mags,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

目录
打赏
0
0
0
0
1807
分享
相关文章
【专栏】大规模数据处理在数据化时代的重要性、应用领域以及面临的挑战
【4月更文挑战第27天】随着信息技术发展,数据成为驱动社会和经济的核心。大规模数据处理技术助力企业优化决策、推动科研创新、促进社会治理现代化,广泛应用于金融、电商、医疗等领域。然而,数据质量、安全、技术更新、法律伦理等问题也随之而来,需通过建立数据管理体系、加强技术研发、人才培养和法规建设等策略应对。大规模数据处理技术在变革生活的同时,其健康发展至关重要。
327 2
如何利用工作负载自动化应对数字化转型过程中的挑战
如何利用工作负载自动化应对数字化转型过程中的挑战
预见未来:机器学习引领运维革命——故障预测与自动化响应的新篇章
【8月更文挑战第2天】智能化运维:机器学习在故障预测和自动化响应中的应用
102 1
智能化运维:利用机器学习优化系统性能
在当今快速发展的信息技术时代,传统的运维方式已难以满足日益增长的业务需求和复杂性。本文将探讨如何通过机器学习技术来提升运维效率,确保系统的高可用性和性能优化。我们将深入分析机器学习模型在预测系统负载、自动故障检测与响应以及资源分配中的应用,并讨论实施这些策略时可能遇到的挑战和解决思路。
探索数据科学在现实世界中的应用与挑战
本文深入探讨数据科学的实际应用,揭示其在商业、医疗和社会科学等领域的显著影响。文章首先概述了数据科学的基本概念及其重要性,然后通过具体案例分析展示了数据科学如何推动创新和决策过程。接着,讨论了在实施数据科学项目时遇到的技术、伦理和管理挑战,最后提出了未来数据科学的发展方向和潜在机遇。
智能化运维:利用AI和机器学习提升系统稳定性与效率
【6月更文挑战第21天】在数字化浪潮下,企业对IT系统的依赖程度日益加深。传统运维模式已难以满足现代业务需求,智能化运维应运而生。本文将探讨如何通过集成人工智能(AI)和机器学习(ML)技术,实现预测性维护、自动化故障处理和优化资源配置,以提升系统的稳定性和运行效率,同时降低运维成本。
336 5
探索数据科学中的模型优化之道
在这篇文章中,我们将深入探讨数据科学中的一个核心议题——模型优化。通过分析不同模型优化技术的应用与效果,本文旨在为读者提供一套系统的方法论,以改善和提升机器学习模型的性能。文章首先概述了模型优化的重要性和基本原则,随后详细介绍了几种主流的模型优化方法,包括超参数调优、集成学习以及正则化技术等。每种方法都配以实例和数据支持,确保理论与实践相结合。最后,文章讨论了模型优化过程中可能遇到的挑战及应对策略,旨在帮助读者构建更加精确和高效的数据模型。
98 0
【专栏】大规模数据处理在数字化时代的重要性及挑战,包括洞察驱动决策、效率提升和创新机遇
【4月更文挑战第27天】本文探讨了大规模数据处理在数字化时代的重要性及挑战,包括洞察驱动决策、效率提升和创新机遇,同时面临数据量大、多样性、实时性和安全问题。文章介绍了Hadoop、Spark、NoSQL数据库及流处理技术(Kafka、Flink)等主流处理工具。在技术选型与实施中,强调明确业务需求、成本效益分析、兼容性及安全合规,并建议分阶段实施和持续优化。大规模数据处理技术是企业数据化转型的基础,影响决策效率和创新能力,企业应灵活选用合适的技术,构建高效安全的数据处理体系,以实现数据价值最大化。
332 3
深入理解自动化测试:框架选择与实践挑战利用机器学习技术优化数据中心冷却系统
【5月更文挑战第27天】 在现代软件开发周期中,自动化测试已成为确保产品质量和加快市场投放的关键步骤。本文深入探讨了自动化测试的框架选择问题,并剖析了实施过程中面临的挑战及其解决方案。通过比较不同测试框架的特点,我们旨在为读者提供一套明确的指导原则,帮助他们根据项目需求做出恰当的技术决策。同时,文中还分享了实际案例和最佳实践,以期帮助开发团队克服实施自动化测试时可能遇到的障碍。
数据爆炸时代的挑战与机遇:大规模数据处理的技术突破
在当今数字化时代,数据量呈现爆炸式增长,给传统数据处理带来了巨大挑战。本文将探讨大规模数据处理所面临的问题,并介绍一些技术突破,如分布式计算、云计算和人工智能,以应对这一挑战。通过有效处理和分析海量数据,我们将迎来更多的机遇和创新。

热门文章

最新文章